단죤 의 블로그
특정 키워드 검색 네이버 뉴스 크롤링 ( 기사 , 기사 댓글 , 기사 사진/ 영상) 본문
석사 논문 작성할때, 활용했던 파이썬 크롤링 코드 입니다. (2024년 기준 실행 코드)
네이버 뉴스 크롤링 관련 여러 블로그, 깃허브를 참고했습니다. ( 관련 출처 하단 더보기에 게시)
html 변동인지 예전 크롤링 코드는 실행 안되는 것들이 많아서 여러 코드들을 조합 및 수정했습니다.
코드 실행 순서
네이버 기사 크롤링 >> 네이버 댓글 크롤링( 크롤링한 네이버 기사 url 을 읽고 해당 url 에서 댓글 크롤링 )
>> 네이버 이미지 크롤링 ( 크롤링한 네이버 기사 url 을 읽고 해당 url 에서 이미지/ 영상 크롤링
1. 사용자 입력: 사용자로부터 크롤링할 페이지 수, 검색어, 뉴스 정렬 방식, 시작 날짜와 끝 날짜를 입력
** 해당 코드는 네이버뉴스 에 게시된 기사들만 크롤링 가능한 코드입니다.


2.URL 생성: 주어진 검색어와 날짜 범위에 맞는 Naver 뉴스 URL을 생성
3.기사 링크 크롤링: 생성된 URL에서 뉴스 기사 링크를 추출
4.기사 내용 크롤링: 추출된 링크를 통해 각 뉴스 기사의 제목, 내용, 날짜, 출처를 크롤링
기사 댓글 크롤링
CSV 파일 로드: 뉴스 기사 CSV 파일을 로드
댓글 URL 생성: 뉴스 URL에서 댓글 URL을 변환하여 리스트로 만듦
Selenium을 이용한 웹 크롤링: 각 댓글 URL에 접속하여 댓글을 불러오고 '더 보기' 버튼을 클릭해 모든 댓글을 로드
댓글 정보 수집: 댓글 작성자, 작성 날짜, 댓글 내용을 수집
기사 크롤링
- 신문 기사 날짜
- 기사 제목
- 신문사(언론사)
- 기사 링크
- 기사 본문
기사 댓글 크롤링
- '작성자'
- 작성날짜'
- 언론사
- url
- 댓글내용
기사 이미지 크롤링
출처
(1) sbomhoo 님 Github
https://github.com/sbomhoo/naver_news_crawling
GitHub - sbomhoo/naver_news_crawling: 네이버 뉴스 리스트 크롤링 (naver news crawling)
네이버 뉴스 리스트 크롤링 (naver news crawling). Contribute to sbomhoo/naver_news_crawling development by creating an account on GitHub.
github.com
(2) 본인 제공 깃허브 링크
https://github.com/qqro724/naver_news_crawling
GitHub - qqro724/naver_news_crawling: 네이버뉴스 크롤링
네이버뉴스 크롤링. Contribute to qqro724/naver_news_crawling development by creating an account on GitHub.
github.com
'Python🖥️' 카테고리의 다른 글
[Programmers Python] 첫 번째로 나오는 음수 (0) | 2025.04.02 |
---|---|
[Programmers Python] 배열 만들기 3 (0) | 2025.04.02 |
DBMS (1) | 2025.02.03 |
[DL] 모두의 딥러닝 (0) | 2025.01.31 |
[DL] 모두의 딥러닝 (0) | 2025.01.31 |