SW/Python

파이썬 : 네이버 실시간 검색어 : 크롤링하기

얇은생각 2019. 9. 3. 07:30
반응형

코드

import requests 
import bs4

naver = requests.get('https://www.naver.com/') 
naver_bs = bs4.BeautifulSoup(naver.content, 'lxml')
span_list = naver_bs.find_all('span', class_='ah_k')
span_list = set(span_list) 

realtime_list = [] 
for sp in span_list:
    realtime_list.append(sp.text) 

print(realtime_list)

 

 

출력 결과

[
	'조국 여배우', '와우 클래식', '새싹보리', '노브라티', 'g7 국가', '코오롱티슈진', 
	'안심전환대출', '이우연', '김용호', '위대한 쇼', '홍가혜', '정한용', '노태우',
	'오정연', '에너지배턴', '유재환', '여신강림', '배재정', '최욱', '쥬비스다이어트 가격'
]

 

 

 

총평

네이버 실시간 검색어 요소

네이버의 실시간 검색어 요소는 다음과 같습니다. 따라서 해당 페이지를 요청하고 span, ah_k 값을 가지고 파싱을 해옵니다. 실시간 검색어가 2개가 중복되서 출력되기 때문에, set 자료구조를 활용하여 중복되는 값은 제거하고 출력하였습니다. 이러한 방식으로 기준이 되는 값들이 있다면 간단한 웹 크롤러를 쉽게 개발할 수 있다는 것을 알게 되었습니다. 제가 현재 실행한 출력값은 위와 같습니다. 과연 여러분이 이 글을 보는 실시간 검색어는 어떻게 될지 궁금하네요.

반응형