웹크롤링의 방식은 크게 3가지로 나뉜다고 보면 된다.
•
HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법
•
Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한 데이터만 추출하는 기법
•
Selenium등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법
크롤링(crawling)과 스크래핑(scraping)의 차이
•
웹 크롤링
웹 크롤러(자동화 봇)가 일정 규칙으로 웹페이지를 브라우징 하는 것
•
웹 스크래핑
웹 스크래핑 - 웹 사이트 상에서 원하는 정보를 추출하는 기술
사실상 기본적인 BeautifulSoup 이나 Selenium을 사용하여 컨텐츠를 따오는 것은 크롤링이라기보다 스크래핑이라고 생각하면 된다.
Open API(Rest API)?
•
API
Application Programming Interface의 약자로, 특정 프로그램을 만들기 위해 제공되는 모듈(함수 등)을 의미
•
Open API
공개 API 라고도 불리우며, 누구나 사용할 수 있도록 공개된 API (주로 Rest API[기술]을 많이 사용함)
•
Rest API
Representational State Transfer API의 약자로, HTTP프로토콜을 통해 서버 제공 기능을 사용할 수 있는 함수를 의미
→ 일반적으로 XML, JSON의 형태로 응답을 전달(원하는 데이터 추출이 수월)