Search

웹크롤링

웹크롤링의 방식은 크게 3가지로 나뉜다고 보면 된다.
HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법
Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한 데이터만 추출하는 기법
Selenium등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법

크롤링(crawling)과 스크래핑(scraping)의 차이

웹 크롤링
 웹 크롤러(자동화 봇)가 일정 규칙으로 웹페이지를 브라우징 하는 것
웹 스크래핑
웹 스크래핑 - 웹 사이트 상에서 원하는 정보를 추출하는 기술
사실상 기본적인 BeautifulSoup 이나 Selenium을 사용하여 컨텐츠를 따오는 것은 크롤링이라기보다 스크래핑이라고 생각하면 된다.

Open API(Rest API)?

API
Application Programming Interface의 약자로, 특정 프로그램을 만들기 위해 제공되는 모듈(함수 등)을 의미
Open API
공개 API 라고도 불리우며, 누구나 사용할 수 있도록 공개된 API (주로 Rest API[기술]을 많이 사용함)
Rest API
Representational State Transfer API의 약자로, HTTP프로토콜을 통해 서버 제공 기능을 사용할 수 있는 함수를 의미
→ 일반적으로 XML, JSON의 형태로 응답을 전달(원하는 데이터 추출이 수월)