Notice
Recent Posts
Recent Comments
Link
나의 개발일지
[네이버 뉴스 요약 프로젝트] 본문
프로젝트 개요
네이버에 있는 뉴스를 카테고리 별로 크롤링, 군집화, 요약해서 시간당 최대 80개의 요약된 기사를 만들어내는 프로젝트
사용하는 카테고리 : 정치, 경제, 사회, 생활/문화, IT/과학, 세계, 연예, 스포츠
프로세스 간단 설명 (1시간 마다 실행)
1. 카테고리 별로 100개 정도의 기사를 크롤링
1.1 뉴스 url을 먼저 수집
1.2 수집한 url로 제목, 본문, 이미지 크롤링
2. 카테고리 별로 기사를 군집화
2.1 본문에서 명사 추출
2.2 추출한 명사 벡터화 (TF-IDF)
2.3 생성된 벡터로 군집화 (DBSCAN)
2.4 군집이 큰 상위 군집 10개만 요약에 사용
3. 상위 군집 10개에 속하는 기사를 요약
3.1 군집에 속해있는 여러 개의 기사를 하나의 기사로 요약
3.2 최대 80개의 요약된 기사를 생성 (8개 카테고리, 각 10개씩)
1. 크롤링 : https://study-yoon.tistory.com/225
2. 군집화 : https://study-yoon.tistory.com/226
3. 요약 : https://study-yoon.tistory.com/227
Github : https://github.com/Yoon-juhan/naverNewsCrawling
'네이버 뉴스 요약 프로젝트' 카테고리의 다른 글
[네이버 뉴스 요약 프로젝트] 요약 (Summary) (0) | 2023.12.22 |
---|---|
[네이버 뉴스 요약 프로젝트] 전처리(Preprocessing) + 군집화(Clustering) (0) | 2023.12.22 |
[네이버 뉴스 요약 프로젝트] 크롤링 (Crawling) (0) | 2023.12.22 |
Comments