2017-09-05 1 views
-2

csv 파일에 문장 A, B, C와 같은 여러 문장 (단락 아님)이 있다고 가정 해 봅니다. 그리고 N-gram (Unigrams 또는 Bigrams)을 사용하여 각 문장의 단어 행렬을 계산하려고합니다. 그래야 매트릭스에서 각 문장에 대해 계산 된 N-gram 벡터를 쉽게 얻을 수 있습니다. 어떻게해야합니까?Ngram-Python을 사용하여 여러 문장의 단어 수 행렬을 만듭니다.

추신 : 몇 가지 방법을 시도했지만 모두 문장이나 전체 단락의 N-gram을 계산합니다!

+1

가능한 복제 [N- 그램 카운트은 무엇과 NLTK 사용하여 구현하는 방법?] (https://stackoverflow.com/question/12821201/what-are-ngram-counts-and-how-to-implement-using-nltk) –

+0

@YuvalRaz 링크에서 대답 한 질문은 내 것과 다릅니다 :) –

답변

0

당신은 팬더 데이터 프레임을 사용하여 시도하고 모든 행에 "적용"사용할 수 있습니다

import pandas as pd 

x = pd.read_csv("the_santances.csv") 

x.apply("the function that calculates the ngram") 
+0

그건 작동하지 않았지만 나는 그 문제를 해결했다. –

관련 문제