2012-07-08 5 views
3

누구나 자연어 처리를 위해 Smalltalk에서 tf-idf 알고리즘의 간단한 구현이나 사용 예를 보여줄 수 있습니까? NaturalSmalltalk 패키지에 구현이 있지만 너무 복잡해 보입니다. 파이썬에서 간단한 구현은 this one과 같습니다.Smalltalk 및 tf-idf 알고리즘

나는 Hapax에 다른 tf-idf가 있음을 발견했으나 소프트웨어 시스템 어휘 분석과 관련이있는 것처럼 보였습니다. 사용법 예제를 찾지 못했습니다.

답변

1

저는 Visualworks 용 원본 Hapax 패키지의 저자입니다. Hapax는 범용 정보 검색 패키지이므로 종류의 텍스트 파일과 작동 할 수 있어야합니다. 필자는 소스 코드 파일을 분석하는 데 사용하기 시작했습니다.

당신이 TermDocumentMatrix 찾고있는 클래스, 어떤 당신이 당신의 필요에 따라 InverseDocumentFrequencyLogTermFrequency 중 하나 또는 TermFrequency의 인스턴스를 전달하는 두 가지 방법 globalWeighting:localWeighting:이 있어야합니다. 일반적으로 tfidf를 언급 할 때 사람들은 로그 용어 주파수를 포함하는 것을 의미합니다.

작은 예제 코퍼스를 사용하여 TDM 클래스를 시연하는 것이 가장 좋습니다. 테스트가 Squeak으로 이식되지 않은 경우 알려 주시면 예제를 제공해 드리겠습니다.

1

TextLint은 자연 언어로 패턴을 구문 분석하고 일치시키기 위해 PetitParser을 기반으로 한 시스템입니다. 그것은 당신이 요구하는 것을 제공하지 않지만, 단어 주파수를 계산하기 위해 모델을 확장하는 것이 너무 어렵지 않아야합니다.

관련 문제