2009-12-29 6 views
0

누군가 del.icio.us와 같은 웹 사이트에서 검색이 이루어지는 방식에 대해 밝힐 수 있습니까?Folksonomies에서 검색하십시오. 동의어 문제를 해결하는 방법?

"js"(1), "javascript"(2) 또는 "java script"(3)를 맛있는 것에 대한 내 쿼리로 입력하면 자바 스크립트에 대한 자료를 가리키고 있습니다. 그러나 쿼리에 따라 반환 된 결과 집합이 다릅니다 (del.icio.us 시스템은 "js"및 "javascript"쿼리에 대해 서로 다른 책갈피 집합을 반환합니다).

그래서 시스템은 실제로 (1)과 (2)가 서로 동의어라는 것을 인식하지 못합니다. 대신 쿼리 문자열이 관련 태그 나 제목에 포함 된 책갈피와 내 쿼리를 일치 시키려고합니다. 그 맞습니까?

all (1), (2), (3)이 실제로 동의어이며 선택된 쿼리에 관계없이 사용자가 모든 Java Script 관련 리소스를보아야하는 시스템을 어떻게 "교육"합니까?

그렇게하는 것이 좋습니다.

감사합니다, 그렉

답변

0

을 활용하려고 할 수 있습니다. 이것은 del.icio.us가하는 일일 가능성이 큽니다.

1

예 : 인간의 brain.

심각 : 프로그래밍이 IMO 매우 어려울 것입니다 밀접한 관련이 주제에서 동의어을 말하고. 함께 표시 될 가능성이 매우 높은 태그 조합이 있습니다 (예 : javascriptjquery). 예를 들어, jquery이 발생하지 않고 결코 발생하지 않는 정보로 무언가를 할 수 있기 때문에 일종의 하위 집합이어야하지만 실제로는 자체적으로 발생합니다. XMLXSLT은 태그가 제대로 붙어 있지만 동의어가 아니며이를 알고있는 경우 매우 자주 함께 나타납니다. 실제 지식을 가진 누군가의 전화를 걸면됩니다.

필자는 동의어 후보와 실제 동의어를 사용하는 관리자를 찾는 사전 필터링 시스템을 제안합니다.

+0

나는 두뇌를 좋아한다. 그리고 이것은 위대한 지위입니다. 하나 추가. – jason

0

완벽한 솔루션이 없습니다. 키워드를 동의어로 명시 적으로 선언 할 수 있으며 그 외 모든 것은 추측이 될 것입니다.

하나의 접근법은 거리 메트릭을 사용하는 것일 수 있습니다. 맛있는 경우 두 개의 키워드가 동일한 책갈피에 적용되는 횟수를 집계합니다.

오탐 (false positive)이 발생할 수 있습니다. 예를 들어 "레일"은 "루비"를 의미하지만 "루비"는 "레일"이 아니기 때문에 "루비"가 "레일"과 함께 사용되는 빈도가 적을 수 있습니다. 이는 동의어에서 관련 용어를 제거하는 데 유용한 속성 일 수 있습니다. 동의어는 더 많이 또는 덜 호환되어야합니다.

0

당신은 또한 당신이 시도하고 개념을 데이터에 포함되어 있는지 확인하려면 LSA 또는 TFIDF 같은 도구를 사용할 수 WordNet

관련 문제