2013-12-23 3 views
-1

나는 20,000 권의 마스터 기사집을 가지고 있으며 매일 약 1-200 페이지에 약 40 만 편의 기사를 얻을 것입니다. 이제이 400k 기사 중 각 기사가 내 기사 모음집 사본 또는 수정 버전인지 확인하려고합니다. (표절 60 % 이상인 문안은 나와 잘 맞습니다.) 사용해야 할 알고리즘 및 기술은 무엇입니까? 매우 효율적이고시의 적절한 방법으로 문제를 해결하십시오. 감사합니다.대량 물품에 표절 물 찾기

+0

글쎄 [관련 기사가 있습니다] (http://www.dcs.gla.ac.uk/publications/PAPERS/7444/TR-2004-164.pdf) 당신에게 유용 할 지 확실하지 않습니다. –

답변

1

지문 (지문을 단어 빈도에 따라 지능적으로 해싱)을 작성한 다음 지문 간의 통계적 연결을 찾습니다. 그런 다음 데이터 세트 중 일부에 직감이있는 경우 일치하는 문자열을 검색하기 위해 무차별 강제 검색을 수행하십시오.

+0

좋은 대답 : +1,하지만 무력에 오타, 그것을 고쳐주세요. –

+0

해싱을 위해 어떤 알고리즘을 제안합니까? 어떤 종류의 통계적 연결을 의미합니까? 은 Cosine 유사성이 좋은 아이디어입니까? – sobhan

+0

글쎄, 간단한 해시는 각 문서의 단어를 길이별로 정렬 한 다음 모든 일반 단어 (또는 대부분)를 무시하는 것입니다. 그런 다음 덜 일반적인 단어들 사이의 단어 거리를 알아낼 수도 있습니다. 이렇게하면 거친 지문/해시 (속성 목록)가 표시됩니다. 그런 다음 하나의 해시가 다른 해시와 유사한 지 확인하는 방법이 필요합니다. 두 개의 해시를 나란히 가져 가라. 동의하는 큰 단어 거리의 수를보고 가중 점수를 부여하고 각 속성에 대해이 작업을 수행하고 함께 점수를 더합니다. 아이디어를 얻으려고? –