저는 Python, Perl 등에서 ngram의 다양한 구현을 발견했습니다.하지만 저는 bash 스크립트에서 뭔가를 정말 좋아할 것입니다. "Missing textutils"버전을 훑어 보았지만 ngrams 만 나열하고 주파수로 계산하지는 않습니다. ngrams를 사용하는 것이 상당히 중심적입니다. 난 그냥bash에서 ngram을 생성 할 수 있습니까?
17 blue car
14 red car
5 and the
2 brown monkey
1 orange car
누구는 그들이 게시 할 수 있음을 주위에 거짓말 같은이 ...이 같은 빈도와 결과의 기본 목록을 원하는? 감사!
'ngram'의 의미를 자세히 설명해 주시겠습니까? 보다 완벽한 예제는 단순한 샘플 출력보다 낫습니다. –
예. "ngram"은 코퍼스 (텍스트, 일반적으로 일반 텍스트 파일)의 단어 조합입니다. 바이 그램은 두 단어 ("파란 차")이고, 트라이 그램은 세 단어 ("파란 차")입니다. "n"은 단순히 단어의 수가 임의적이라는 것을 의미하지만 실제로는 5 개 이상을 볼 수 없습니다. 일반적으로 ngram을 식별 할 때 텍스트의 빈도를 측정합니다. – user1889034
자세한 내용은 http://en.wikipedia.org/wiki/N-gram을 참조하십시오. 위대한 gui 예제는 antconc입니다. 현재 antconc를 사용하고 있지만 간단히 스크립트를 호출하고 싶습니다. 여기에 제가 언급 한 기존 스크립트가 있습니다 : http://www1.cuni.cz/~obo/textutils/ngrams – user1889034