사용자가 기사를 업로드하는 데이터베이스가 있습니다. 내 웹 앱이 사용자가 읽는 것과 유사한 텍스트를 제안하는 알고리즘을 만들고 싶습니다.텍스트의 유사성을 찾는 방법
Levenshtein distance과 같은 몇 가지 예를 보았습니다. 그러나 이러한 알고리즘은 전체 기사가 아닌 문자열의 거리를 측정합니다. 텍스트에서 가장 중요한 키워드를 추출 할 수있는 방법이 있습니까? 확실히, 나는 "가장 중요한 것"이 모호한 용어라는 것을 이해합니다.
어떻게 다른 사이트에서이를 관리합니까?
덕분에 많은
tf-idf, http://en.wikipedia.org/wiki/Tf%E2%80%93idf를 확인하십시오. –