나는 20,000 권의 마스터 기사집을 가지고 있으며 매일 약 1-200 페이지에 약 40 만 편의 기사를 얻을 것입니다. 이제이 400k 기사 중 각 기사가 내 기사 모음집 사본 또는 수정 버전인지 확인하려고합니다. (표절 60 % 이상인 문안은 나와 잘 맞습니다.) 사용해야 할 알고리즘 및 기술은 무엇입니까? 매우 효율적이고시의 적절한 방법으로 문제를 해결하십시오. 감사합니다.대량 물품에 표절 물 찾기
답변
지문 (지문을 단어 빈도에 따라 지능적으로 해싱)을 작성한 다음 지문 간의 통계적 연결을 찾습니다. 그런 다음 데이터 세트 중 일부에 직감이있는 경우 일치하는 문자열을 검색하기 위해 무차별 강제 검색을 수행하십시오.
좋은 대답 : +1,하지만 무력에 오타, 그것을 고쳐주세요. –
해싱을 위해 어떤 알고리즘을 제안합니까? 어떤 종류의 통계적 연결을 의미합니까? 은 Cosine 유사성이 좋은 아이디어입니까? – sobhan
글쎄, 간단한 해시는 각 문서의 단어를 길이별로 정렬 한 다음 모든 일반 단어 (또는 대부분)를 무시하는 것입니다. 그런 다음 덜 일반적인 단어들 사이의 단어 거리를 알아낼 수도 있습니다. 이렇게하면 거친 지문/해시 (속성 목록)가 표시됩니다. 그런 다음 하나의 해시가 다른 해시와 유사한 지 확인하는 방법이 필요합니다. 두 개의 해시를 나란히 가져 가라. 동의하는 큰 단어 거리의 수를보고 가중 점수를 부여하고 각 속성에 대해이 작업을 수행하고 함께 점수를 더합니다. 아이디어를 얻으려고? –
- 1. 표절 감지기
- 2. JavaScript로 코드 표절 검사하기
- 3. 표절 감지기 문제
- 4. 표절 탐지기의 알고리즘
- 5. Wcopyfind for python - 표절 소프트웨어?
- 6. 표절 분석기 (웹 콘텐츠와 비교)
- 7. Specflow 지형지 물 템플릿
- 8. "기능 물"?
- 9. 물 또는 도로와 같은 GPS 위치의 지형 찾기
- 10. strtol에 대한 C# 동등 물 (기본 매개 변수를 지정) 찾기
- 11. MongoDB 대량 API : 일치하는 일괄 업데이트 찾기
- 12. OPENXML 대량 찾기 및 바꾸기 단어
- 13. damerau levenshtein 알고리즘을 사용한 표절 탐지
- 14. 표절 탐지에 대한 순수한 접근법은 무엇입니까?
- 15. 표절 탐지 프로그램을 작성하는 데 차이가 있습니까?
- 16. 쉐이더가없는 실시간 물 효과
- 17. Java Reflection.Emit의 동등 물
- 18. 분수 입력 대사 물
- 19. 문자열 비교 동등 물
- 20. WebGL의 왜곡/물
- 21. Ceylon 동등 물 Collections.shuffle()
- 22. "svn up"동등 물
- 23. 장면 수집 물 추적하기
- 24. SWT JPANEL의 동등 물
- 25. 포크의 복제품 동등 물?
- 26. Three.js의 물 시뮬레이션
- 27. 물 이미지 : 화학 분석
- 28. @Mappedsuperclass의 JAXB 동등 물
- 29. MapBox 물/땅 감지
- 30. Webgl : 2D의 물 효과
글쎄 [관련 기사가 있습니다] (http://www.dcs.gla.ac.uk/publications/PAPERS/7444/TR-2004-164.pdf) 당신에게 유용 할 지 확실하지 않습니다. –