2013-11-26 7 views
-4

표절 검사기 (Turnitin 웹 사이트와 같은)가 어떻게 작동하는지 매우 감탄했습니다. 그러나 어떻게 그 일을합니까? 매우 효과적인 방법으로, 나는이 영역을 처음 사용했기 때문에 비슷한 단어를 검색하는 알고리즘이나 유사한 문장을 검색하는 데 사용되는 것과 비슷한 것이 있습니까?
대단히 감사합니다.표절 탐지기의 알고리즘

+3

[WikiPedia] (http://en.wikipedia.org/wiki/Plagiarism_detection) 도움이 되었습니까? – Till

답변

2

많은 실제 표절 탐지 시스템이 더 정교한 체계를 사용하지만, 두 가지가 얼마나 멀리 떨어져 있는지를 감지하는 일반적인 종류의 문제는 edit distance입니다. 이 링크에는이 목적으로 사용되는 많은 일반적인 알고리즘에 대한 링크가 포함됩니다. 요점은 "하나의 입력을 다른 입력으로 바꾸기 위해 수행해야하는 편집 작업의 수는 얼마나 많은가?"라는 질문에 효과적으로 대답하고 있습니다. 실제 시스템에 대한 도전은 효율적인 방식으로 대규모 코퍼스에서이를 수행하는 것입니다. 관련된 문제는 longest common subsequence이며, 이러한 스키마는 그대로 복사 한 구절을 식별하는 데 유용 할 수 있습니다.

관련 문제