이 좋아하는 오래된 BYTE 잡지 희화화, 또는 물건에 의해, 인기 단어 튜플 - 랜덤 도보 만들어 데이터 세트를 설명하는 텍스트를 생성하는 것. 완전 무작위 문장 생성에 대한 많은 연구도 있습니다.
하나의 출발점은 문장을 생성하기 위해 마르코프 체인을 사용하는 것입니다. 이것이 어떻게 이루어 지는지는 당신이 모든 모든 품사 (part-of-speech) 사이에서 전환 할 가능성이 얼마나되는지를 말하는 전환 행렬을 가지고 있다는 것입니다. 또한 문장의 시작 부분과 끝 부분의 품사가 가장 많습니다. 이 모든 것을 합치면 음성의 가능성이있는 시퀀스를 생성 할 수 있습니다.
이제 멀리 떨어져 있습니다. 인접한 단어 (또는 바이 그램이라고도 함) 사이의 확률만을 고려할 때 매우 좋은 결과를 제공하지 않으므로 원하는대로 확장하십시오 이것은 예를 들어 3 개의 품사 (이것은 3D 행렬을 만들고 당신에게 트라이 그램을줍니다) 사이의 전이 행렬에서 찾습니다. 처리 능력과 코퍼스가 이러한 매트릭스를 채울 수 있는지에 따라 4-grams, 5-grams 등으로 확장 할 수 있습니다.
마지막으로, 객체 동의 (주제 - 동의어 - 동의어, 동의어 - 동의어 등)와 시제와 같은 것들을 패치해야합니다. 그러면 모든 것이 일치합니다.
두 번째 링크에는 인증이 필요합니다! – Skynet