Ruby Classifier library ~ classify privacy policies을 사용하고 있습니다. 나는이 라이브러리에 내장 된 간단한 bag-of-word 접근 방식으로는 충분하지 않다는 결론에 도달했습니다. 분류 정확도를 높이기 위해 개별 단어 외에도 n 그램에 분류자를 훈련시키고 싶습니다.ngram의 Naive Bayes 분류기
전처리 문서가 관련 n 그램 (구두점을 올바르게 처리)을 처리 할 수있는 라이브러리가 있는지 궁금합니다. 하나의 생각이었다 내가 할 수 전처리 그런 루비 분류에 문서와 공급 의사 ngrams :
wordone_wordtwo_wordthree
아니면 등이있는 라이브러리로이 일을 할 수있는 더 좋은 방법이있다 Ngram 기반의 Naive Bayes 분류는 내장에서 가져옵니다. 나는 그들이 Ruby가 아닌 다른 언어를 사용하도록 열어 둔다. (만약 파이썬이 필요하다면 좋은 후보로 보인다).
좋은 대답 +1 – Yavar
NLTK는 루비가 제공하는 것보다 여러면에서 놀라운 것처럼 보입니다. 파이썬이 이기고, 감사합니다! – babonk
@babonk 내 기쁨. 나는 nltk가 사용하기에 기쁨이되고 믿을 수 없을 정도로 강력하다는 것을 발견했다. D –