네이버 - 함께 많이 찾는 주제어 수집

•

정적 웹페이지 데이터 수집

•

BeautifulSoup을 이용해 HTML 문자열 데이터 parsing

1. 웹페이지 분석 : URL

import pandas as pd
import requests
from bs4 import BeautifulSoup

url = 'https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=삼성전자'
Python
복사

2. request(URL) > response : str(html)

response = requests.get(url)
response.text
Python
복사

3. str(html) > bs object

•

bs.select() : 여러 개의 엘리먼트를 선택해서 리스트로 출력

•

bs.select_one() : 한개의 엘리먼트를 선택해서 tag 객체로 출력

dom = BeautifulSoup(response.text, 'html.parser')
Python
복사

4. bs object > .select(css-selector), .select_one(css-selector) > str(text)

selector = '.fds-keyword-text'
elements = dom.select(selector)
len(elements) # 6
Python
복사

element = elements[0]
keyword = element.text
keyword # '삼성전자 주가'
Python
복사

keywords = [element.text for element in elements]
keywords
Python
복사

['삼성전자 주가', '삼성전자주식가격', '삼성전자주식', '삼성전자 주식 전망', '삼성전자 패밀리몰', '삼성전자주식배당금']