Search

네이버 - 함께 많이 찾는 주제어 수집

정적 웹페이지 데이터 수집
BeautifulSoup을 이용해 HTML 문자열 데이터 parsing

1. 웹페이지 분석 : URL

import pandas as pd import requests from bs4 import BeautifulSoup url = 'https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=삼성전자'
Python
복사

2. request(URL) > response : str(html)

response = requests.get(url) response.text
Python
복사

3. str(html) > bs object

bs.select() : 여러 개의 엘리먼트를 선택해서 리스트로 출력
bs.select_one() : 한개의 엘리먼트를 선택해서 tag 객체로 출력
dom = BeautifulSoup(response.text, 'html.parser')
Python
복사

4. bs object > .select(css-selector), .select_one(css-selector) > str(text)

selector = '.fds-keyword-text' elements = dom.select(selector) len(elements) # 6
Python
복사
element = elements[0] keyword = element.text keyword # '삼성전자 주가'
Python
복사
keywords = [element.text for element in elements] keywords
Python
복사
['삼성전자 주가', '삼성전자주식가격', '삼성전자주식', '삼성전자 주식 전망', '삼성전자 패밀리몰', '삼성전자주식배당금']