나의 개발일지

[네이버 뉴스 요약 프로젝트] 본문

네이버 뉴스 요약 프로젝트

[네이버 뉴스 요약 프로젝트]

YoonJuHan 2023. 12. 22. 10:00
프로젝트 개요

네이버에 있는 뉴스를 카테고리 별로 크롤링, 군집화, 요약해서 시간당  최대 80개의 요약된 기사를 만들어내는 프로젝트

사용하는 카테고리 : 정치, 경제, 사회, 생활/문화, IT/과학, 세계, 연예, 스포츠

프로세스 간단 설명 (1시간 마다 실행)

1. 카테고리 별로 100개 정도의 기사를 크롤링
     1.1 뉴스 url을 먼저 수집
     1.2 수집한 url로 제목, 본문, 이미지 크롤링

2. 카테고리 별로 기사를 군집화
     2.1 본문에서 명사 추출
     2.2 추출한 명사 벡터화 (TF-IDF)
     2.3 생성된 벡터로 군집화 (DBSCAN)
     2.4 군집이 큰 상위 군집 10개만 요약에 사용

3. 상위 군집 10개에 속하는 기사를 요약
     3.1 군집에 속해있는 여러 개의 기사를 하나의 기사로 요약
     3.2 최대 80개의 요약된 기사를 생성 (8개 카테고리, 각 10개씩)


1. 크롤링 : https://study-yoon.tistory.com/225
2. 군집화 : https://study-yoon.tistory.com/226
3. 요약 : https://study-yoon.tistory.com/227

Github : https://github.com/Yoon-juhan/naverNewsCrawling

 

Comments