2010-04-08 5 views
1

여러 소스에서 오는 무료 텍스트에서 태그 클라우드를 생성 할 수 있기를 원합니다. 명확한 설명을 위해 중요한 태그/문구가 이미 발견 된 후 태그 클라우드를 표시하는 방법을 말하는 것이 아니라 PHP/MySQL 스택에서 의미있는 문구를 발견 할 수 있기를 희망합니다.태그 클라우드 데이터 백엔드

만약 내가 직접해야만한다면, 어떤 단어/문구에도 "보통"의 빈도를주는 단어/문구에 대한 일종의 색인을 만들어야합니다. 예 : "Constantinople"은 평균 1,000,000 단어 (일반 빈도 "0.000001")마다 한 번 발생합니다. 그런 다음 텍스트 본문을 분석 할 때 개별 단어/구문 (다른 과제!)을 찾고 입력 내 각의 빈도를 찾고 예상되는 빈도에 대해 측정합니다. 예상 빈도 대비 가장 높은 비율의 단어는 클라우드에서 우선 순위를 높입니다.

다른 사람이 이미이 방법을 사용하고 있다고 믿고 싶습니다. 희망 할 수있는 것보다 나을 것이지만, 찾으면 저주받을 수 있습니다.

추천?

답변

1

전체 텍스트 검색 엔진에서 사용하는 역 색인이 필요합니다. Lucene이나 Xapian과 같은 텍스트 검색 라이브러리가 도움이 될 것입니다. 많은 라이브러리에는 PHP 바인딩이 있습니다.

관련 문제