2009-11-03 2 views
5

나는 랜덤이지만 사실적인 텍스트를 생성하기위한 도구를 찾고 있습니다. 나는 Markov Chain 텍스트 생성기를 직접 구현했으며 결과가 유망한 동안 개선을 시도했지만 큰 성공을 거두지 못했습니다.랜덤이지만 사실적인 텍스트를 생성하기위한 라이브러리 또는 도구

저는 코퍼스를 사용하거나 문맥에 민감하거나 문맥이없는 문법을 기반으로 작동하는 도구에 만족할 것입니다. 도구가 다른 프로젝트에 포함되기에 적합하도록하고 싶습니다. 대부분의 최근 작업은 Java로되어 있으므로 해당 언어의 도구를 사용하는 것이 좋지만 C#, C, C++ 또는 JavaScript를 사용하는 것이 좋을 것입니다.

이것은 question과 비슷하지만 범위가 더 큽니다.

+0

- 원본 텍스트 유사성에 대한 매개 변수는 무엇인가 :

이 도구를 사용하여에서 텍스트를 추출했습니다? 단어 길이? 성격 확률? 문장 길이? 문자 또는 단어로? 아마도 당신이 당신의 요구 사항에보다 구체적으로 접근한다면, 무엇인가를 발견 할 수있을 것입니다. –

답변

6

"임의"텍스트를 원한다면 자신의 Markov 체인 생성기를 확장하는 것이 가장 좋습니다. 문맥을 가진 무언가를 생성하는 것은 열린 연구 문제입니다.

봅니다 (당신이 아닌 경우) : 당신이 이미하지 않은 경우

  • Tokenising 구두점 개별적으로, 또는 당신의 체인에 구두점을 포함한다. 여기에는 단락 기호가 포함됩니다.
  • 2 개 또는 3 개의 이력 마르코프 체인을 사용하는 경우 전체 중지 또는 개행이 발생할 때 1 개 기록을 사용하도록 재설정하십시오.

또는, 당신은 당신의 신체와 두 개의 패스 WordNet을 사용할 수

  1. 문장을 분석 단어 유형, 즉 명사, 동사, 형용사, 부사의 일반적인 순서를 결정합니다. WordNet에는 이러한 기능이 포함되어 있습니다. 그 밖의 모든 것은 (대명사, 접속사, 무엇이든간에) 제외됩니다. 그러나 당신은 본질적으로 그것을 통과 할 수 있습니다. 이것은 "형용사 [명사] [동사]"에 "게으른 개를 뛰어 넘을 게"
  2. 임의로 선택하여 문장을 재현합니다. 형용사 문장을 대체하고 [형용사], [명사형] 및 [동사]를 실제 형용사 명사 및 동사로 대체합니다.

이 접근법에는 몇 가지 문제가 있습니다. 예를 들어 주변 단어의 컨텍스트를 선택하여 어떤 동음 이의어를 선택해야하는지 파악해야합니다. wordnet에서 "quick"을 찾는 것은 빠르게되는 것에 대한 것들을 얻을뿐만 아니라 손톱의 비트를 산출합니다.


저는 이것이 라이브러리 나 도구에 대한 요구 사항을 해결하지 못한다는 것을 알고 있지만 몇 가지 아이디어를 줄 수도 있습니다.

+0

최근에 워드 넷을 발견했지만이 솔루션과 비슷한 솔루션을 찾고 있습니다. –

0

와 같음 this Lorem ipsum generator? 여러 API에 대한 링크가 있습니다.

+0

매우 비슷하지만 텍스트 모음을 사용하고 임의의 텍스트를 생성 할 수있는 텍스트를 찾고 있습니다. 나는 사과한다, 나는 그 질문에서 더 분명해야했다. –

관련 문제