2011-11-05 5 views
0

표절을 탐지하기 위해 텍스트에서 고유 한 임의의 구문을 작성하려고합니다. 아이디어는PHP가 텍스트에서 임의의 구문을 생성합니다.

문장 다음 고려 저자가 기사를 제출 한 후 PHP가 표절 탐지에 사용되는 텍스트에서 문구를 구축 할 것입니다 : 이것은 매우 길고 지루한 기사입니다

이 문서는 표절됩니다 .

위의 텍스트를 기반으로, 시스템은 얼마나 많은 문구가 생성 될지, 즉 20 단어 길이의 기사가 3 개의 문구를 가질지를 결정합니다. 생성 된 최대 구문은 최소 2 단어 길이와 최대 3 단어 길이가 될 수 있습니다. 이

  • 매우 긴
  • 문서는 내가 코드

    나는이 부분의 나머지를 완료하는 방법을 암시 필요
    $words = str_word_count($text, 1); 
    $total_phrases_required = count($words) /2; 
    //build phrases 
    

    다음 쓴

을 표절처럼 반환 출력됩니다.

+0

자동으로 구문을 만들려면 "a", "is", "and"...와 같은 일반적인 단어가있는 데이터베이스가 필요하고 텍스트의 필터를 필터링해야합니다. 남은 단어는 검색 할 전문 용어입니다. 이것은 물론 문장을 작게하기 위해 최적화 할 수 있지만, 더 많은 논리가 필요합니다. – Frank

답변

0

텍스트를 두 개의 문장 배열로 분해 한 다음 similar_text 함수와 같은 함수를 사용하여 유사한 문자열을 재귀 적으로 확인할 수 있습니다.

또 하나의 아이디어는 철저한 빈곤을 발견하는 것입니다. 텍스트를 다시 문장으로 나눌 수 있습니다. 그런 다음 데이터베이스에 넣고 인덱스 열 개수와 문장 열 수를 선택하는 쿼리를 실행합니다. 결과가 1보다 커지면 해당 문장과 정확히 일치해야합니다.

관련 문제