0
두 개의 스파크 RDD에 두 개의 csv 파일을로드했습니다. 하나는 국가 코드가 있고 두 번째에는 트윗 데이터가 들어 있습니다. 나는 다음을 찾으려고 노력 중이다 :Spark에서 두 개의 rdd를 비교하는 방법은 무엇입니까?
- 짹짹에서 얼마나 많은 나라들이 언급 되었는가?
- 모든 국가에 대해 언급 된 총 횟수를 계산합니다.
코드 : 나는 CountryDF 각국이 트윗 CSV 발생 얼마나 많은 시간을 찾기 위해 노력하고
country_lines = sc.textFile('country-data.csv')
words = country_lines.flatMap(lambda country_lines: country_lines.split(")")
country_tuples = words.map(lambda word : (word, 1))
countryDF = sqlContext.createDataFrame(country_tuples, ["country" , "code"])
tweets = sc.textFile("tweet_data.csv")
(트윗 텍스트 만 열이있다).
country_DF은 다음과 같습니다
Afghanistan AFG
Albania ALB
Algeria ALG
American Samoa ASA
Andorra AND
어떻게 파이썬을 사용하여 RDD pyspark 트윗 각국의 발생을 계산합니까?