나는 웹에서 검색을 해왔으며 CNN과 NPR과 같은 매체는 자신의 성적표에 대한 액세스 링크를 제공합니다. 이를 얻기 위해서는 크롤러와 같이 쓸모가 없어야합니다. 그 이유는 자연 언어 처리 프로젝트에서 TV 쇼, 인터뷰, 라디오, 영화의 일부 사본을 훈련 데이터로 사용하려고하기 때문입니다. 그래서 나는 웹상에서 자유롭게 사용할 수있는 컬렉션이나 데이터베이스가 있는지 궁금하여, 스스로 크롤러를 작성하지 않고 한 번에 모두를 다운로드 할 수 있습니까?자연어 처리를위한 대본 데이터 집합
3
A
답변
2
나는 British National Corpus을 권하고 싶습니다. 나는 또한 미국 국가 코퍼스에 대해서도 언급 할 것이지만, 성적표에는 전화 나 얼굴을 마주하는 대화 만 있습니다. 뉴스, TV 프로그램 등은 없습니다.
또한 CNN과 NPR을 언급했습니다. 1996 년부터 LDC corpus here으로 성적표가 있습니다.
+0
이러한 데이터 세트는 멋지다! 고맙습니다. –
관련 문제
- 1. 자연어 처리를위한 최대 엔트로피
- 2. 자연어 처리를위한 Python 대 Java
- 3. 자연어 용 API 및 데이터 집합?
- 4. Junit : 대용량 자연어 처리를위한 단위 테스팅
- 5. 날짜 대본 대본
- 6. 난처하게 병렬 처리를위한 추가 하위 집합 데이터 프레임
- 7. C++에서 자연어 처리
- 8. Matlab에서 데이터 집합, 유효성 검사 데이터 집합, 테스트 데이터 집합
- 9. C#의 자연어 프로그래밍 솔루션?
- 10. R 데이터 집합 거래 준비 데이터 집합
- 11. 데이터 처리를위한 TSQL의 대체 언어
- 12. 데이터 처리를위한 수동 "버전 추적기"
- 13. 효율적인 자연어 데이터 구조, 지속성 및 쿼리
- 14. 주석 도구 용 의료 데이터 집합
- 15. PowerShell : PowerShell 대본 기록부 읽기
- 16. 스크롤 대본, scrollTop, 콜백 함수
- 17. 자연어 검색은 - SOLR
- 18. 데이터 마이닝 프로젝트의 데이터 집합
- 19. SSRS의 데이터 집합에서 데이터 집합
- 20. 날짜 계산을 기반으로하는 부분 집합 데이터 집합
- 21. 하위 집합 데이터 집합 열 R
- 22. xml 및 데이터 집합 디자이너가있는 강력한 형식의 데이터 집합
- 23. 형식화 된 데이터 집합 및 형식화되지 않은 데이터 집합
- 24. OutOfMemoryException - 데이터 집합 <-> XML <-> 데이터 집합
- 25. Akamai 데이터 로그 처리를위한 도구는 무엇입니까?
- 26. 날짜가 효과적인 처리를위한 데이터 구조가 필요합니다.
- 27. 데이터베이스 처리를위한 데이터 모델 클래스 만들기
- 28. 이름 - 값 데이터 처리를위한 ASP.NET (webforms) 컨트롤
- 29. 좋은 OOP 디자인 데이터베이스 데이터 처리를위한 제자
- 30. AngularJS 사용 방법 데이터 대기열 처리를위한 약속
이전 질문을 삭제하고 다시 게시하면 문제가 해결 될 가능성이 낮습니까? FAQ (http://stackoverflow.com/help/on-topic)를 읽어보십시오. 데이터베이스의 권장 사항은 확실히 stackoverflow에서 물어 봐야 할 것이 아무것도 아닙니다. –
안녕하세요 켈빈! 이미 수행 한 연구에 대해 알려주십시오. 또한 여기에서 (http://stackoverflow.com/help/dont-ask) 몇 가지 주관적인 질문이 허용되지만 의견을 통해 경험 공유를 요청하고 의견을 사실과 참조로 뒷받침해야한다고 주장합니다 "권장 사항을 묻는 질문에 대한 가이드 라인 # 1 (http://blog.stackoverflow.com/2010/09/good-subjective-bad-subjective/)도 참조하십시오. 나는 정중하게 @ThomasJungblut에 동의하지 않는다. 이것은 추천 할 곳이 아니다. 그것은 단지 정보와 유익한 방식으로해야합니다. – arturomp
@ThomasJungblut 그럼이 질문에 대해 어떻게 생각하세요 : http://stackoverflow.com/questions/3340810/twitter-social-networking-dataset http://stackoverflow.com/questions/4251768/twitter-public-dataset 도움이되지 않는 부정적인 의견을 여기에 넣으려고 할 때 사람들이 유용한 일을하도록 돕는 데 집중하십시오. –