주어진 텍스트 작성자를 식별 할 수있는 프로젝트가 하나 있는데, 해당 블로그 특정 작성자를 위해 교육 데이터와 코퍼스를 만드는 방법은 무엇입니까?"작성자 식별"단계를 제안 하시겠습니까?
동일한 링크와 알고리즘을 제안하십시오.
주어진 텍스트 작성자를 식별 할 수있는 프로젝트가 하나 있는데, 해당 블로그 특정 작성자를 위해 교육 데이터와 코퍼스를 만드는 방법은 무엇입니까?"작성자 식별"단계를 제안 하시겠습니까?
동일한 링크와 알고리즘을 제안하십시오.
저자 식별을위한 많은 접근법이 있습니다. NLP에 익숙해 진 것처럼 보였으므로 기본 단어 모음 벡터 방식으로 시작하는 것이 좋습니다.
정상적인 문서 클러스터링과 다른 저자 식별을위한 클러스터링을 만드는 중요한 캐치가 있습니다. 일반적인 문서 클러스터링에서는 "the", "be", "be"와 같은 고 빈도 단어를 " 그 "등, 그리고 단지"내용 단어 "에 집중. 그러나 저자 식별에있어, 불용어는 개인의 글을 독특하게 만드는 것입니다. 따라서 벡터는 저자가이 기능 단어를 서면으로 사용하는 방법에 따라 실제로 클러스터되어야합니다.
다음 단계로 bigrams라는 단어와 같은 더 나은 기능을 사용 해보십시오. 저자의 글쓰기 스타일의 고유 한면에 대해 좀 더 나은 통찰력을 제공 할 것이기 때문입니다.
사람들이 시도한 영역과 기법에 대한 광범위한 정보를 보려면 Google scholar의 의견을 확인하십시오. 사람들이 시도한 것과 성공한 것을 잘 이해할 수 있도록 설문 조사 기사 나 현장의 개요를 보여주는 기타 논문을 찾아야합니다.
빠른 답장을 보내 주셔서 감사합니다. 이제 제안 된 사항을 시도하고 같은 문제에 관해서 되돌릴 수 있습니다. 다시 한 번 감사드립니다. – Target
신경망을 사용할 수 있습니다. 예를 들어 here이라는 기사가 있는데 셰익스피어, 플레처 및 말로우의 저작자를 식별하려고합니다. 또한 Python 스크립트 (및 C의 신경망 구현)도 포함되어 있습니다. 또한 데이터 파일을 작성하는 방법을 알려주는 데이터 파일도 있습니다.
하지만 앞에서 언급했듯이 문제는 지나치게 광범위합니다. 다행히도이 예가 시작될 수 있기 때문에 다시 돌아와서보다 구체적인 질문을 할 수 있습니다.
approch을 주셔서 대단히 감사드립니다. 이제 그 일을 시도하고 구체적인 질문을하겠습니다. 팀과 나에게도 분명합니다. 다시 감사드립니다. – Target
스택 오버 플로우에 오신 것을 환영합니다! 이 질문은이 사이트에서 잘 대답하기에는 너무 광범위합니다. [FAQ] (http://stackoverflow.com/faq#dontask)에서 설명했듯이 "귀하의 질문은 합리적으로 범위가 있어야합니다. 귀하의 질문에 대답하는 전체 책을 상상할 수 있다면 너무 많이 묻는 것입니다." –