2017-02-03 1 views
-2

나는 5 천만 개의 요소가 모두있는 문자열을 가지고 있습니다. 원래 RDD 문자열은 상기 배열의 문자열이 포함되어있을 경우배열의 요소 존재 여부에 따라 rdd를 필터링합니다.

val x = Array("apple", "mango", "papaya","pineapple") 

SO,이 필터링 RDD이어야한다 : I 필터 다음 조건 중 하나를 갖는 새 RDD을해야한다. 스칼라에서 효율적인 방법은 무엇입니까? 한 줄 방법이 있습니까? 아니면 각 요소를 탐색하고 알아야합니까? 같은

+0

난 당신이 무슨 뜻인지 작동하지 수 있습니다. 엘리먼트가 문서라는 것은 무엇을 의미합니까? String을 의미합니까? "다음 용어가있는 rdd"란 무엇입니까? "문자열"이 포함 된 단어 또는 그 이상의 단어를 의미합니까? 더 자세한 내용과 더 자세한 설명은 –

+0

@TheArchetypalPaul으로 편집했습니다. 알았어. –

+0

@TheArchetypalPaul을 백업하고 있습니다. 무슨 뜻인지 알 수 없습니다. – eliasah

답변

2

뭔가 :

val strings = Set("apple", "mango", "papaya",v"pineapple") 
rdd.filter(strings.contains(_)) 
관련 문제