목록네이버 뉴스 요약 프로젝트 (4)
나의 개발일지

목차 프로젝트 소개 : https://study-yoon.tistory.com/224 1. 크롤링 : https://study-yoon.tistory.com/225 2. 군집화 : https://study-yoon.tistory.com/226 3. 요약 : https://study-yoon.tistory.com/227 Github : https://github.com/Yoon-juhan/naverNewsCrawling 군집화 단계에서 생성된 상위 군집 데이터 프레임을 사용 1. 여러 기사를 하나의 기사로 요약 여기서 content는 같은 군집 내의 여러 기사들이다. (매개 변수로 받음) 군집 내의 기사들을 하나의 기사로 합치고 문장 단위로 분리 split() 하면서 마지막에 빈 문자열이 생기는 경우가 있..

목차 프로젝트 소개 : https://study-yoon.tistory.com/224 1. 크롤링 : https://study-yoon.tistory.com/225 2. 군집화 : https://study-yoon.tistory.com/226 3. 요약 : https://study-yoon.tistory.com/227 Github : https://github.com/Yoon-juhan/naverNewsCrawling 크롤링 마친 데이터 프레임 (news_df) 사용 작업 순서 : 필요없는 기사 삭제 → 명사 추출 → 명사 벡터화 → 군집화 → 상위 군집 추출 1. 필요 없는 기사 삭제 네이버 요약봇이 요약을 지원하지 않는 유형을 참고해 기사를 삭제 3문장 이하 or 300자 이하 기사 삭제 def sh..

목차 프로젝트 소개 : https://study-yoon.tistory.com/224 1. 크롤링 : https://study-yoon.tistory.com/225 2. 군집화 : https://study-yoon.tistory.com/226 3. 요약 : https://study-yoon.tistory.com/227 Github : https://github.com/Yoon-juhan/naverNewsCrawling 🔑 threading을 사용해서 크롤링을 병렬로 처리 스레드 참고 : https://blog.naver.com/nkj2001/222728316792 현재 프로젝트는 시간당 카테고리별로 100개 정도의 뉴스를 수집해야 함 카테고리 8개 = 총 800개 이상의 뉴스를 수집 스레드를 사용하기 전..

프로젝트 개요 네이버에 있는 뉴스를 카테고리 별로 크롤링, 군집화, 요약해서 시간당 최대 80개의 요약된 기사를 만들어내는 프로젝트 사용하는 카테고리 : 정치, 경제, 사회, 생활/문화, IT/과학, 세계, 연예, 스포츠 프로세스 간단 설명 (1시간 마다 실행) 1. 카테고리 별로 100개 정도의 기사를 크롤링 1.1 뉴스 url을 먼저 수집 1.2 수집한 url로 제목, 본문, 이미지 크롤링 2. 카테고리 별로 기사를 군집화 2.1 본문에서 명사 추출 2.2 추출한 명사 벡터화 (TF-IDF) 2.3 생성된 벡터로 군집화 (DBSCAN) 2.4 군집이 큰 상위 군집 10개만 요약에 사용 3. 상위 군집 10개에 속하는 기사를 요약 3.1 군집에 속해있는 여러 개의 기사를 하나의 기사로 요약 3.2 최대..