2016-06-13 4 views
0

코퍼스 (코퍼스는 크지 않고 로컬 머신에서 처리 가능)에 대한 모든 가능한 n-term에 대해 TF/IDF를 계산해야하며, Python 2.7을 사용하고 참조 구현이나 라이브러리가 있는지 궁금합니다. 직접 사용 하시겠습니까? 감사.TF/IDF in Python

관련, 린

+1

[gensim] (https://radimrehurek.com/gensim/) –

+0

m9_psy @, 감사를 시도하고 투표를. 이 API (https://radimrehurek.com/gensim/models/tfidfmodel.html)를 사용 하시겠습니까? gensim이 사전을 필요로하는지 확실하지 않습니다. 사전 요구 사항이 있습니다. 사전이 없으므로 가능한 모든 n-term에 대해 TF/IDF를 계산하면됩니다. 귀하의 조언을 부탁드립니다. :) –

+1

아니요, 당신은 사전이 필요 없습니다 - 그것은 그 과정에서 만들어 질 것입니다. 문구 (n 그램)를 감지하기 위해 별도의 모듈이 있습니다. https://radimrehurek.com/gensim/models/phrases.html –

답변

1

이 문제를 해결할 수있는 문제를 scikit 배우기.

http://scikit-learn.org/stable/modules/feature_extraction.html

+0

감사합니다 user3358074, 답장을 위해 투표하세요. 나는 scikit에서 지적한 참고 문헌을 사용한다고 생각합니다. 미리 사전이 있어야합니까? 내 요구 조건은 사전이 없기 때문에 가능한 모든 n 항에 대해 TF/IDF를 계산하면됩니다. 귀하의 조언을 부탁드립니다. :) –

+1

이것은 아마도 당신의 코퍼스를 필요로하고 나머지는 다음과 같습니다 : http://stackoverflow.com/questions/23792781/tf-idf-feature-weights-using-sklearn-feature-extraction-text-tfidfvectorizer – dmitryro

+0

Thanks 드미트리로, 답장을 위해 투표하십시오. 내 이해가 정확하다는 것을 확인하기 위해, (1)'corpus '에 대해 당신은 원시 문서/파일을 의미하며, 단어 사전 파일이 아닌 n-gram의 TF/IDF를 생성하고 싶습니까? (2) scikit-learn이 중국어, 일본어 문자 같은 유니 코드에 대해 작동하는지 알고 있습니까 (유니 코드 인코딩이라고 가정)? –