나는 단지 스파크 (pyspark)에서 단어를 세고 싶지만 문자 나 전체 문자열을 매핑 할 수 있습니다. 스파크 - 단어 카운트 테스트
내가 시도 : (전체 문자열)v1='Hi hi hi bye bye bye word count'
v1_temp=sc.parallelize([v1])
v1_map = v1_temp.flatMap(lambda x: x.split('\t'))
v1_counts = v1_map.map(lambda x: (x, 1))
v1_counts.collect()
또는 (단지 문자)
v1='Hi hi hi bye bye bye word count'
v1_temp=sc.parallelize(v1)
v1_map = v1_temp.flatMap(lambda x: x.split('\t'))
v1_counts = v1_map.map(lambda x: (x, 1))
v1_counts.collect()
글쎄, 여기의 문제는 스파크가 아니기 때문에 탭으로 분할하려고합니다 : 'split ('\ t ')', 필요한 것은'split()'을 호출하는 것입니다. – nonsleepr