2012-12-21 3 views
0

학생들이 에세이를 비교하고 그 에세이 중 하나가 표절되었는지 알고 싶다고합시다. 어떻게하면 순진한 방식으로 진행할 수 있습니까 (즉, 너무 복잡하지는 않은 접근 방식)? 물론 에세이에서 사용 된 단어를 비교하는 것과 같은 간단한 방법과 압축 기능을 사용하는 것과 같은 복잡한 방법이 있지만 너무 복잡한/이론없이 표절을 검사하는 다른 방법은 무엇입니까?표절 탐지에 대한 순수한 접근법은 무엇입니까?

+8

이것은 뭔가 잘못 처리하는 것이 전혀하지 않는 것보다 훨씬 나빠질 수있는 일 중 하나입니다. 내가 대학에있을 때, 나는 한 번 종이에 F를 부여 받았고,이 순진한 표절 탐지기 중 하나를 기반으로 한 표절 혐의로 기소되었습니다. 표절 혐의로 기소 된 기사는 귀속이있는 제 논문 *을 인용 한 것입니다! 표절 탐지기는 일치하는 섹션 만 포함하고 다른 종이에서 컨텍스트 (인용문 포함)를 잘라냅니다! 그냥하지 마. –

+0

사용자가보고자하는 유사한 문서를 찾는 것만으로는 탐지기가 최종 결정을 내리지 않는 한 계속해서 도움을 받아야합니다. – fgb

+0

동의합니다. 이것은 실용적인 응용보다는 이론적 인 것입니다. 나는이 하하를 기반으로 한 표절 탐지기를 만들 계획을 가지고 있지 않다. – user1921187

답변

1

Dick Grune의 similarity comparator에서 자연어 텍스트 작업을 수행 할 수 있습니다 (소프트웨어에서만 시도했습니다). 알고리즘도 설명되어 있습니다. (그런데, 구문 분석에 대한 자신의 책은 내 의견으로는, 정말 좋은 것입니다.)

2

, 내가 this 을 읽어 보시기 바랍니다 몇 가지 방법을 제공하는 몇 가지 서류가 있습니다 용지 전체에 걸쳐 구축 된 인덱스 구조 을 기반으로하는 알고리즘을 보여줍니다 파일 컬렉션.

따라서 알고리즘은 대형 소프트웨어 시스템에서 유사한 코드 조각을 찾는 데 사용할 수 있다고합니다. 인덱스가 작성되기 전에 컬렉션의 모든 파일이 토큰 화됩니다. 이것은 간단한 구문 분석 문제이며 선형 시간으로 해결할 수 있습니다. 컬렉션의 각 파일에 대해, F_i에 대한 토큰 화 장치 의 출력은 n_i 토큰의 문자열입니다.

enter image description here

here 당신이 테스트 문서 등록 문서 사이에 일반적인 단어의 집합에 비교하여 표절을 검출에 구성

다른 좋은 알고리즘 is a scam based algorithm을 읽을 수있는 다른 종이입니다. 우리의 표절 탐지 시스템은 많은 정보 검색 시스템과 마찬가지로 정밀도와 회수율의 측정 기준으로 평가됩니다.

관련 문제