2017-03-13 2 views
0

두 개의 스파크 RDD에 두 개의 csv 파일을로드했습니다. 하나는 국가 코드가 있고 두 번째에는 트윗 데이터가 들어 있습니다. 나는 다음을 찾으려고 노력 중이다 :Spark에서 두 개의 rdd를 비교하는 방법은 무엇입니까?

  1. 짹짹에서 얼마나 많은 나라들이 언급 되었는가?
  2. 모든 국가에 대해 언급 된 총 횟수를 계산합니다.

코드 : 나는 CountryDF 각국이 트윗 CSV 발생 얼마나 많은 시간을 찾기 위해 노력하고

country_lines = sc.textFile('country-data.csv') 
words = country_lines.flatMap(lambda country_lines: country_lines.split(")") 
country_tuples = words.map(lambda word : (word, 1)) 
countryDF = sqlContext.createDataFrame(country_tuples, ["country" , "code"]) 

tweets = sc.textFile("tweet_data.csv") 

(트윗 텍스트 만 열이있다).

country_DF은 다음과 같습니다

Afghanistan AFG 
Albania ALB 
Algeria ALG 
American Samoa ASA 
Andorra AND 

어떻게 파이썬을 사용하여 RDD pyspark 트윗 각국의 발생을 계산합니까?

답변

0

tweetDF를 그룹화하여 tweet.csv에서 각 국가의 수를 구한 다음 countryDF와 결합하여 수를 얻을 수 있습니다.

df = tweetDF.groupby("CountryName").count().join(countryDF,["CountryName"]) 
관련 문제