2017-10-24 2 views
0

위해 나는 다음과 같은 RDD 보이는이 "없습니다에" '?'내가 가진 레코드를 제외 할PySpark RDD와 필터 값이 여러

myRDD: 
[[u'16/12/2006', u'17:24:00'], 
[u'16/12/2006', u'?'], 
[u'16/12/2006', u'']] 

또는 안에 ''. 다음 코드는 하나씩 필터링을 수행하지만 항목을 결합하고 '?'로 필터링하는 방법이 있습니다. 그리고 ''한 번에 다음 다시 얻을 수 있습니다 :

[u'16/12/2006', u'17:24:00'] 

을 아래 작성하는 방법에 대한 도움이 필요한 여러 항목

myRDD.filter(lambda x: '?' not in x) 

로 확장하는 방법 시간에 하나 개의 항목에 대해서만 작동합니다

myRDD.filter(lambda x: '?' not in x && '' not in x) 

답변

2

이 시도 ,

myRDD.filter(lambda x: ('?' not in x) & ('' not in x)) 
+0

작품, 감사 수레 쉬 – Spandan