2013-08-27 3 views
3

나는 웹에서 검색을 해왔으며 CNN과 NPR과 같은 매체는 자신의 성적표에 대한 액세스 링크를 제공합니다. 이를 얻기 위해서는 크롤러와 같이 쓸모가 없어야합니다. 그 이유는 자연 언어 처리 프로젝트에서 TV 쇼, 인터뷰, 라디오, 영화의 일부 사본을 훈련 데이터로 사용하려고하기 때문입니다. 그래서 나는 웹상에서 자유롭게 사용할 수있는 컬렉션이나 데이터베이스가 있는지 궁금하여, 스스로 크롤러를 작성하지 않고 한 번에 모두를 다운로드 할 수 있습니까?자연어 처리를위한 대본 데이터 집합

+2

이전 질문을 삭제하고 다시 게시하면 문제가 해결 될 가능성이 낮습니까? FAQ (http://stackoverflow.com/help/on-topic)를 읽어보십시오. 데이터베이스의 권장 사항은 확실히 stackoverflow에서 물어 봐야 할 것이 아무것도 아닙니다. –

+2

안녕하세요 켈빈! 이미 수행 한 연구에 대해 알려주십시오. 또한 여기에서 (http://stackoverflow.com/help/dont-ask) 몇 가지 주관적인 질문이 허용되지만 의견을 통해 경험 공유를 요청하고 의견을 사실과 참조로 뒷받침해야한다고 주장합니다 "권장 사항을 묻는 질문에 대한 가이드 라인 # 1 (http://blog.stackoverflow.com/2010/09/good-subjective-bad-subjective/)도 참조하십시오. 나는 정중하게 @ThomasJungblut에 동의하지 않는다. 이것은 추천 할 곳이 아니다. 그것은 단지 정보와 유익한 방식으로해야합니다. – arturomp

+0

@ThomasJungblut 그럼이 질문에 대해 어떻게 생각하세요 : http://stackoverflow.com/questions/3340810/twitter-social-networking-dataset http://stackoverflow.com/questions/4251768/twitter-public-dataset 도움이되지 않는 부정적인 의견을 여기에 넣으려고 할 때 사람들이 유용한 일을하도록 돕는 데 집중하십시오. –

답변

2

나는 British National Corpus을 권하고 싶습니다. 나는 또한 미국 국가 코퍼스에 대해서도 언급 할 것이지만, 성적표에는 전화 나 얼굴을 마주하는 대화 만 있습니다. 뉴스, TV 프로그램 등은 없습니다.

또한 CNN과 NPR을 언급했습니다. 1996 년부터 LDC corpus here으로 성적표가 있습니다.

+0

이러한 데이터 세트는 멋지다! 고맙습니다. –

관련 문제