•
정적 웹페이지 데이터 수집
•
BeautifulSoup을 이용해 HTML 문자열 데이터 parsing
1. 웹페이지 분석 : URL
import pandas as pd
import requests
from bs4 import BeautifulSoup
url = 'https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=삼성전자'
Python
복사
2. request(URL) > response : str(html)
response = requests.get(url)
response.text
Python
복사
3. str(html) > bs object
•
bs.select() : 여러 개의 엘리먼트를 선택해서 리스트로 출력
•
bs.select_one() : 한개의 엘리먼트를 선택해서 tag 객체로 출력
dom = BeautifulSoup(response.text, 'html.parser')
Python
복사
4. bs object > .select(css-selector), .select_one(css-selector) > str(text)
selector = '.fds-keyword-text'
elements = dom.select(selector)
len(elements) # 6
Python
복사
element = elements[0]
keyword = element.text
keyword # '삼성전자 주가'
Python
복사
keywords = [element.text for element in elements]
keywords
Python
복사
['삼성전자 주가', '삼성전자주식가격', '삼성전자주식', '삼성전자 주식 전망', '삼성전자 패밀리몰', '삼성전자주식배당금']