어떻게 n 그램을 결합하는지 알고 싶습니다. 예를 들어, 단어 bab가있는 경우 2gram (ba) = 2.969, 2gram (ab) = 2.77을 기준으로 하나의 값을 계산하고 싶습니다. 나는 2 개의 질문이 있습니다 : 1. 그것은 어떻게 이론적으로 이루어 집니까? 2. 실제로 이것에 대한 효율적인 구현 방법이 있습니까? 솔루션에 희소 매트릭스가 포함되어 있다고 생각하고 신중하지 않으면 상당히 비효율적 일 수 있습니다.R 그램에서 n 그램 결합하기
가
-3
A
답변
0
당신은 ngram
패키지를 사용하여이 작업을 수행 할 수 있습니다
#install.packages("ngram")
library(ngram)
str <- "bab"
ng <- ngram(splitter(str, split.char = TRUE))
주는합니다 (토큰 화는 매우 효율적인 C 코드에 의해 처리됩니다) :
> get.ngrams(ng)
#[1] "b a" "a b"
또한 수행하여 주파수 테이블을 얻을 수 있습니다 :
> get.phrasetable(ng)
# ngrams freq prop
#1 b a 1 0.5
#2 a b 1 0.5
+0
코멘트 주셔서 감사합니다. 나는 나의 질문이 정말로 분명하지 않았던 것으로 생각한다. 나는 어떤 텍스트에서 2-gram을 계산하는 방법을 안다. "분포"를 감안할 때, 단어 (예 : "bab")가 그 분포에서 추출된다는 점수 (예 : 확률)를 원한다. – user2154457
+0
@ user2154457 [MCVE] –
관련 문제
- 1. N- 그램 elasticsearch
- 2. Mallet : 주제별 N 그램
- 3. PostgreSQL의 텍스트에서 n 그램
- 4. N 그램 - 메모리에 없음
- 5. R : 아시아/중국 문자로 R에 n 그램 생성?
- 6. SOLR N- 그램 매치 화가
- 7. 테두리 모양 파일 결합하기 R
- 8. Naive Bayes 분류자를 가진 n 그램
- 9. R 덴도 그램에서 모서리를 색칠하거나 직사각형을 올바르게 그리려면 어떻게해야합니까?
- 10. 인트로 그램에서 인스 트램 이미지를 가져 오시겠습니까?
- 11. 블로 그램 주파수 함수가 느림 R
- 12. SQL 쿼리로 n 그램 테이블 생성
- 13. drupal에서 부분 키워드/n 그램 검색
- 14. N 그램 : 설명 + 2 응용 프로그램
- 15. Python - 여러 텍스트 파일의 n 그램 비교
- 16. 인스 타 그램 그림 표시
- 17. Prestashop : 인스 타 그램에서 제품 공유
- 18. 그램 - 슈미트 직교 화를 사용하여 R
- 19. nodejs TCP/IP의 \ r \ n \ r \ n 문자는 무엇입니까
- 20. 목록에서 n 벡터에 R
- 21. 삭제 자까지/R/N
- 22. 대체 방법 \\ r \\ n
- 23. $ .parseXML이 떨어집니다. \ r \ n
- 24. \ r \ n 문자열 제거하기
- 25. 출력 \ r \ n - PHP
- 26. 인터리브 N R
- 27. C# \ n, \ r \ n 또는 Environment.NewLine
- 28. OpenGLES에서 여러 쉐이더 결합하기
- 29. 단편화없이 UDP 데이터 그램 보내기
- 30. 그램
"하나의 값 계산"이란 무엇을 의미합니까? –