문장으로 가득 찬 텍스트 파일에서 데이터 정리 작업을하고 있습니다. 이 문장의 형태를 알아 내고 나면 나는 줄기 세포 목록에있는 단어의 빈도를 얻고 싶습니다.파이썬에서 형태소 분석을 한 후 단어의 빈도 찾기
[u'anyon', u'think', u'forgotten', u'day', u'parti', u'friend', u'friend', u'paymast', u'us', u'longer', u'memori']
[u'valu', u'friend', u'bought', u'properti', u'actual', u'relev', u'repres', u'actual', u'valu', u'properti']
[u'monster', u'wreck', u'reef', u'cargo', u'vessel', u'week', u'passeng', u'ship', u'least', u'24', u'hour', u'upload', u'com']
내가 모든 단어의 빈도를 얻을 싶지만 난 단지 획득하고있다 : 나는, stem_list을 막아야 목록을 인쇄 할 때 같은 문제가 발생하고 그러나, 나는과 같이 모든 문장에 대한 목록을 획득하고
fdist = nltk.FreqDist(stem_list)
for word, frequency in fdist.most_common(50):
print(u'{};{}'.format(word, frequency))
이 다음과 같은 출력 생산 : 다음 코드를 사용하여 문장 당 주파수 친구 2 paymast 1 이상 1 memori 1 이상적 상대; 1 우리 1 일 1 개 애니 온, 잊고 1 생각, 실제 1 properti 2 가치있는 2 친구 1 repres 1 relev 1 구입; 1 주 1 개 화물 1 몬스터 1 시간 1 난파선 1 개 업로드 1 passeng, 적어도 1 1 개 암초 1 24 1 개 선박 1 선박 1 명 닷컴, 내 1 1 개 지역 1 territori 1 사용자 정의 1 개 물 1 3, 그것은 두에 있기 때문에 단어 '친구'두 번 계산되고 1
다른 문장들. 어떻게하면 친구를 한 번 카운트하고 친구를 표시 할 수 있습니까?이 경우 3 명입니까?
stem_list = [inner for outer in stem_list for inner in outer]
을하고 당신이 동일한 방식으로 처리 :
당신은 definitvely 사용자가 정의한 –
방법을 https://docs.python.org/2/library/collections.html#collections.Counter 살펴해야 'stem_list'의 문법이 잘못되었습니다. 올바른 정의를 입력하십시오. – trincot