"임의"텍스트를 원한다면 자신의 Markov 체인 생성기를 확장하는 것이 가장 좋습니다. 문맥을 가진 무언가를 생성하는 것은 열린 연구 문제입니다.
봅니다 (당신이 아닌 경우) : 당신이 이미하지 않은 경우
- Tokenising 구두점 개별적으로, 또는 당신의 체인에 구두점을 포함한다. 여기에는 단락 기호가 포함됩니다.
- 2 개 또는 3 개의 이력 마르코프 체인을 사용하는 경우 전체 중지 또는 개행이 발생할 때 1 개 기록을 사용하도록 재설정하십시오.
또는, 당신은 당신의 신체와 두 개의 패스 WordNet을 사용할 수
- 문장을 분석 단어 유형, 즉 명사, 동사, 형용사, 부사의 일반적인 순서를 결정합니다. WordNet에는 이러한 기능이 포함되어 있습니다. 그 밖의 모든 것은 (대명사, 접속사, 무엇이든간에) 제외됩니다. 그러나 당신은 본질적으로 그것을 통과 할 수 있습니다. 이것은 "형용사 [명사] [동사]"에 "게으른 개를 뛰어 넘을 게"
- 임의로 선택하여 문장을 재현합니다. 형용사 문장을 대체하고 [형용사], [명사형] 및 [동사]를 실제 형용사 명사 및 동사로 대체합니다.
이 접근법에는 몇 가지 문제가 있습니다. 예를 들어 주변 단어의 컨텍스트를 선택하여 어떤 동음 이의어를 선택해야하는지 파악해야합니다. wordnet에서 "quick"을 찾는 것은 빠르게되는 것에 대한 것들을 얻을뿐만 아니라 손톱의 비트를 산출합니다.
저는 이것이 라이브러리 나 도구에 대한 요구 사항을 해결하지 못한다는 것을 알고 있지만 몇 가지 아이디어를 줄 수도 있습니다.
- 원본 텍스트 유사성에 대한 매개 변수는 무엇인가 :
이 도구를 사용하여에서 텍스트를 추출했습니다? 단어 길이? 성격 확률? 문장 길이? 문자 또는 단어로? 아마도 당신이 당신의 요구 사항에보다 구체적으로 접근한다면, 무엇인가를 발견 할 수있을 것입니다. –