두 문서의 텍스트를 읽고 비교하여 두 문서간에 텍스트가 복사되었는지 확인할 수있는 응용 프로그램을 만들고 싶습니다. 나는 누군가가 이것을 시도한 적이 있는지, 그리고 그것을 처리하는 최선의 방법이 무엇인지를 알고 싶었다. 기계 학습 및 자연 언어 처리가 관련된 경우 : 어떤 수준으로?문서 비교 소프트웨어 만들기
2
A
답변
0
나는 Copyscape이 4-grams을 사용하여 고유성을 결정하는 데 도움이된다고 생각합니다.
이러한 문자열은 N-Grams이라고합니다.
그러나, another SO answer는 문자 기반에 language independent algo comparing bi-grams에 연결. 이미 Java로 구현되었으므로 시간을 절약 할 수 있습니다.
+0
감사. 나는 그것을 점검하고있다. – Goodman
1
은 세트 이론적 개념
에 전적으로 의존하는 기술 좋은 시작을 http://en.wikipedia.org/wiki/W-shingling 시도가있다.
+0
감사합니다. 나는 그것을 점검하고있다. – Goodman
관련 문제
- 1. 텍스트 파일 비교 소프트웨어
- 2. 소프트웨어 구현의 성능 비교
- 3. 소프트웨어 설치 문서
- 4. 소프트웨어 환경 문서 체크리스트
- 5. Asp.net 소스 코드 비교 소프트웨어
- 6. MongoDB 내 문서 비교
- 7. 다중 언어 소프트웨어 문서/설명서
- 8. R 소프트웨어 만들기 테이블
- 9. 비교 편집기에서 문서 가져 오기
- 10. 동등성을위한 두 x 문서 비교
- 11. PDF 문서 보호 또는 비교
- 12. Silverlight에서 두 Xml 문서 비교
- 13. 크로스 브라우저 비교 문서 위치
- 14. 소프트웨어 설치 패키지 문제 만들기
- 15. 자바에서 스크린 캐스트 소프트웨어 만들기
- 16. 비디오 플레이어 트레이닝 소프트웨어 만들기
- 17. 문서 변환 소프트웨어 : XHTML 및 CSS에서 PDF로
- 18. YUI3에서 문서 조각 만들기
- 19. Java에서 XBRL 문서 만들기?
- 20. XML에서 Lucene 문서 만들기
- 21. 텍스트 문서 만들기 (Python)
- 22. 파워 포인트 문서 만들기
- 23. PHP로 XML 문서 만들기
- 24. InputStream에서 xml 문서 만들기
- 25. 문서 이미지 만들기
- 26. 도마뱀에서 문자열로 문서 만들기
- 27. 내 문서 뷰어 만들기
- 28. Open XML에서 문서 만들기
- 29. Qt와 같은 doxygen 문서 열거 형 만들기
- 30. 문서 관리 시스템의 인터페이스로 가상 프린터 만들기
'md5_file()'을 시도 했습니까? – Karo
많은 사람들이 이것을 시도했습니다. turnitin.com은 하나의 예입니다. – emory
두 문서의 텍스트를 비교하여 표절을 확인하고 싶습니다 – Goodman