2016-10-11 3 views
0

내 목표는 컴퓨터에서 생성 된 콘텐츠를 검색하는 것입니다. 다음은 스핀 텍스트의 예입니다.문장이 읽기 쉬운지를 확인하는 방법?

"광고 조직에서 유행을 선도하는 예술 작품으로, 경매 고객의 작물 및/또는 무력을 원래 시장의 기술 및 기술로 보완하는 데 도움을 줄 것입니다. 능력."

"실제 애플 아이폰 응용 프로그램 상점은 유용한 응용 프로그램의 풍부한 소중한 거주지입니다."

기본적으로 컴퓨터는 표절 표출을 우회하기 위해 콘텐츠를 고유하게 만들기 위해 다양한 동의어로 단어를 대체했습니다. 내 목표는이 횡설수설 한 텍스트를 감지 할 수있는 시스템을 만드는 것이다. 이것이 달성 될 수있는 몇 가지 방법은 무엇입니까?

답변

1

원하는 작업은 ngram language model입니다. ngram 언어 모델은 언어에서 단어 쌍 발생의 통계적 표현이며 기계 번역, 감정 분석 및 영화 검토가 양수인지 음수인지를 예측하는 등의 분류 작업에 사용됩니다. 분류 작업은 각 문장이 스핀 콘텐츠인지 아닌지 여부입니다.

naive bayes (implemented in NLTK)와 같은 분류 모델은 문제를 해결하는 데 도움이 될 수 있습니다. 교육에서 언어 모델을 만든 다음 예측을 위해 모델을 사용합니다. 모델을 훈련 시키려면 당신의 spun content examples과 많은 영어 텍스트가 필요합니다. 더 많이 가질수록 더 좋습니다! 모든 문서 (각 문장을 하나의 문서로 취급 할 수 있음)에는 분류 된 내용인지 여부를 표시하는 레이블이 있어야합니다.

여기에는 회전하지 않은 텍스트의 영어 corpora 목록이 있습니다.

더 복잡한 모델이 더 잘 작동하고 나란히 비교할 수 있습니다. 나는 그런 종류의 일에 scikit-learn을 사용하는 것을 좋아합니다.

관련 문제