반응형
코드
import requests
import bs4
naver = requests.get('https://www.naver.com/')
naver_bs = bs4.BeautifulSoup(naver.content, 'lxml')
span_list = naver_bs.find_all('span', class_='ah_k')
span_list = set(span_list)
realtime_list = []
for sp in span_list:
realtime_list.append(sp.text)
print(realtime_list)
출력 결과
[
'조국 여배우', '와우 클래식', '새싹보리', '노브라티', 'g7 국가', '코오롱티슈진',
'안심전환대출', '이우연', '김용호', '위대한 쇼', '홍가혜', '정한용', '노태우',
'오정연', '에너지배턴', '유재환', '여신강림', '배재정', '최욱', '쥬비스다이어트 가격'
]
총평
네이버의 실시간 검색어 요소는 다음과 같습니다. 따라서 해당 페이지를 요청하고 span, ah_k 값을 가지고 파싱을 해옵니다. 실시간 검색어가 2개가 중복되서 출력되기 때문에, set 자료구조를 활용하여 중복되는 값은 제거하고 출력하였습니다. 이러한 방식으로 기준이 되는 값들이 있다면 간단한 웹 크롤러를 쉽게 개발할 수 있다는 것을 알게 되었습니다. 제가 현재 실행한 출력값은 위와 같습니다. 과연 여러분이 이 글을 보는 실시간 검색어는 어떻게 될지 궁금하네요.
반응형
'SW > Python' 카테고리의 다른 글
파이썬? 주피터 노트북은 무엇을 하는 것일까? (0) | 2019.09.06 |
---|---|
파이썬 : 다음, 네이버 뉴스 기사 크롤링 하기 (2) | 2019.09.04 |
파이썬 : MK부동산 데이터 : 크롤링하는 방법 (0) | 2019.09.02 |
python : 머신러닝 기본 용어 정리 (0) | 2019.07.16 |
python : 기본 용어 정리 (0) | 2019.07.15 |