2016-09-27 2 views
0

나는 스파크에서 다음과 같은 일을 수행하는 방법을 알지 못합니다. sc.textFile(<path>)스파크 RDD 데이터 선택

timestamp A,B,C (\n) 
A,B,C (\n) 
A,B,C (\n) 
... 
timestamp A,B,C (\n) 
A,B,C (\n) 
... 

나는 그것을 읽을 RDD에있는 코스 취급 별도의 항목으로 각 라인 : 나는 다음과 같은 형식의 데이터가 포함 된 텍스트 파일이 있습니다.

타임 스탬프를 첫 번째 줄과 어떻게 분리 할 수 ​​있습니까? 기본적으로 타임 스탬프 -> entry1, entry2 ... 각 항목이 A, B, C로 구성되어 있습니까? A, B, C는 항상 동일한 유형이며 이 아니며 각각이 아닙니다.

+0

entry1과 entry2는 무엇입니까? 다음 줄에 A, B, C와 같은 타임 스탬프 라인의 A, B, C가 있습니까? –

+0

'여기서 각 항목은 A, B, C'로 구성되므로 entry1과 항목 2는 A, B, C입니다. 예 – Dimebag

+0

A, B, C가 모두 같은 경우 타임 스탬프로 시작하는 줄을 필터링 한 다음 해당 줄을 사용하여 간단히지도를 구성 할 수는 없습니까? –

답변

0

의견에서 나에게 암시하는 유일한/최선의 방법은 wholeTextFiles()을 사용하는 것입니다. 그 후, 나는 타임 스탬프의 정규식을 사용하여 문자열을 분할하고 마지막으로 \n에 또 다른 분할을 사용합니다.

관련 문제