Notice
Recent Posts
Recent Comments
Link
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Archives
Today
Total
관리 메뉴

단죤 의 블로그

특정 키워드 검색 네이버 뉴스 크롤링 ( 기사 , 기사 댓글 , 기사 사진/ 영상) 본문

Python🖥️

특정 키워드 검색 네이버 뉴스 크롤링 ( 기사 , 기사 댓글 , 기사 사진/ 영상)

단죤 2025. 2. 11. 18:12

 

석사 논문 작성할때, 활용했던 파이썬 크롤링 코드 입니다. (2024년 기준 실행 코드) 

네이버 뉴스 크롤링 관련 여러 블로그, 깃허브를 참고했습니다.  ( 관련 출처 하단 더보기에 게시) 

html 변동인지 예전 크롤링 코드는 실행 안되는 것들이 많아서 여러 코드들을 조합 및 수정했습니다.


 

코드 실행 순서

 

네이버 기사 크롤링 >> 네이버 댓글 크롤링( 크롤링한 네이버 기사 url 을 읽고 해당 url 에서 댓글 크롤링 )  

>> 네이버 이미지 크롤링 ( 크롤링한 네이버  기사 url 을 읽고 해당 url 에서 이미지/ 영상 크롤링

 

 

1. 사용자 입력: 사용자로부터 크롤링할 페이지 수, 검색어, 뉴스 정렬 방식, 시작 날짜와 끝 날짜를 입력

 

** 해당 코드는 네이버뉴스 에 게시된 기사들만 크롤링 가능한 코드입니다. 

 

 

2.URL 생성: 주어진 검색어와 날짜 범위에 맞는 Naver 뉴스 URL을 생성

3.기사 링크 크롤링: 생성된 URL에서 뉴스 기사 링크를 추출

4.기사 내용 크롤링: 추출된 링크를 통해 각 뉴스 기사의 제목, 내용, 날짜, 출처를 크롤링

 

 

기사 댓글 크롤링

CSV 파일 로드:  뉴스 기사  CSV 파일을 로드
댓글 URL 생성: 뉴스 URL에서 댓글 URL을 변환하여 리스트로 만듦
Selenium을 이용한 웹 크롤링: 각 댓글 URL에 접속하여 댓글을 불러오고 '더 보기' 버튼을 클릭해 모든 댓글을 로드
댓글 정보 수집: 댓글 작성자, 작성 날짜, 댓글 내용을 수집

 

 


기사 크롤링

  • 신문 기사 날짜
  • 기사 제목
  • 신문사(언론사)
  • 기사 링크
  • 기사 본문

기사 댓글 크롤링

  • '작성자'
  • 작성날짜'
  • 언론사
  • url
  • 댓글내용

기사 이미지 크롤링

 

Naver_news_comments_crawling.py
0.00MB
Naver_news_crawling.py
0.01MB
Naver_news_image_crawling.py
0.00MB

 

 

'Python🖥️' 카테고리의 다른 글

[Programmers Python] 첫 번째로 나오는 음수  (0) 2025.04.02
[Programmers Python] 배열 만들기 3  (0) 2025.04.02
DBMS  (1) 2025.02.03
[DL] 모두의 딥러닝  (0) 2025.01.31
[DL] 모두의 딥러닝  (0) 2025.01.31