0
내지도 대신 단어 수의 텍스트의 체크에 출력 상단 bigrams을 파일을 감소 변경 찾고 있어요, 그래서 두 단어와 음절 수맵리 듀스 및 파이썬 : Bigrams
이것은 내 현재 코드 접근.
지도 :
import sys
for line in sys.stdin:
line = line.strip()
words = line.split() #bigrams = line.split()
for word in words: #for bigram in words
print '%s\t%s' % (word,1) #print ... word pair???
가 감소 :
mydict = dict()
for line in sys.stdin:
(word,cnt) = line.strip().split('\t') #bigram and bigram count
mydict[word] = mydict.get(word,0) 1
for word,cnt in mydict.items():
print word,cnt #print bigram and bigram count
감사합니다.
bigrams를 컴퓨팅하기위한 인기있는 솔루션으로 nltk를 보았습니다. mapreduce 형식에서도 이러한 접근 방식을 사용해야합니까?