뉴스 수집기는 "정치적", "비즈니스"등과 같은 카테고리에 기사를 올리려면 어떻게해야합니까? 검색했지만 결과가 없습니다. .? 피드의 방법이 달성하지 않으면 RSS의 목록 범주에 의해 공급이 포함 된 공용 데이터베이스가 있습니까RSS 뉴스 수집기는 데이터를 어떻게 분류합니까?
1
A
답변
1
이 복잡하고 여러 단계의 과정 일 수 있지만, 일반적으로 수
데이터를 단락, 문장 및 단어로 토큰 화합니다.이 작업을 수행 할 수있는 도구의 예로는 http://nlp.stanford.edu/software/tokenizer.shtml이 있습니다. http://alias-i.com/lingpipe/은 또 다른 예입니다.
토큰 화 된 후에는 "a", "the", "ha", "lol", "omg"등과 같이 일반적이지 않은 일반 단어 ("중지 단어"라고도 함)를 버립니다. 토큰 화 프로그램에는 일반적으로 이들을 식별하고 처리 할 수있는 메소드가 내장되어 있습니다.
n-grams (함께 나오는 단어)를 식별하십시오. 예를 들어 "Bay"와 "Area"라는 단어는 두 단어이지만 한 단어 인 "Bay Area"로 간주되는 경우가 많습니다. 이처럼 엔티티를 식별하여 올바르게 분류해야합니다.
품사를 그룹화합니다. 예를 들어, 동사, 부사를 버리고 카테고리 분류에 명사와 형용사 만 사용하면 편리합니다.
마지막으로 카테고리별로 데이터를 슬라이스 앤 다이스.
관련 문제
- 1. Apache Mahout에서 수치 데이터를 어떻게 분류합니까?
- 2. 데이터 마이닝 절차에 대한 데이터를 어떻게 분류합니까?
- 3. Google Finance 뉴스 RSS
- 4. 금융 뉴스 rss 피드
- 5. RSS 뉴스 피드 API
- 6. 안드로이드에서 중국어를 어떻게 분류합니까?
- 7. AngularFire 컬렉션을 어떻게 분류합니까?
- 8. Java의 가비지 수집기는 어떻게 작동합니까?
- 9. 프롤로그에서 연령 목록을 어떻게 분류합니까?
- 10. 이 코드는 사전을 어떻게 분류합니까?
- 11. .NET은 특수 문자를 어떻게 분류합니까?
- 12. 거대한 파일을 파이썬으로 어떻게 분류합니까?
- 13. PHP/MySQL에서 어떻게 출력을 분류합니까?
- 14. 뉴스 클러스터링
- 15. Node.js (v8) 가비지 수집기는 어떻게 작동합니까?
- 16. 꿀꺽-REV-수집기는
- 17. 뉴스 티커 위젯, 어떻게 작동합니까?
- 18. rss 뉴스 피드 jquery 모바일 사용
- 19. 뉴스 링크의 RSS 버전을 표시하는 방법
- 20. 뉴스 리더에서 RSS 피드의 조회수를 확인 하시겠습니까?
- 21. 내 상용 웹 사이트의 RSS 뉴스
- 22. Marque Rss 내 안드로이드 앱의 뉴스 피드
- 23. 히브리어 뉴스 사이트의 RSS 피드 구문 분석
- 24. RSS 기반 뉴스 롤 달성 방법은 무엇입니까?
- 25. RSS 피드에서 업데이트되는 뉴스 티커 만들기
- 26. 선택한 도시에서 Google 뉴스 RSS 피드 받기
- 27. RSS 피드를 어떻게 생성합니까?
- 28. 가비지 수집기는 힙에서만 작동해야합니까?
- 29. 뉴스 피드는 어떻게 받습니까? 뉴스 및 날씨 앱처럼
- 30. TFS 2010/2012에서 어떻게 버그를 분류합니까?