0
나는 스파크에서 다음과 같은 일을 수행하는 방법을 알지 못합니다. sc.textFile(<path>)
와스파크 RDD 데이터 선택
timestamp A,B,C (\n)
A,B,C (\n)
A,B,C (\n)
...
timestamp A,B,C (\n)
A,B,C (\n)
...
나는 그것을 읽을 RDD에있는 코스 취급 별도의 항목으로 각 라인 : 나는 다음과 같은 형식의 데이터가 포함 된 텍스트 파일이 있습니다.
타임 스탬프를 첫 번째 줄과 어떻게 분리 할 수 있습니까? 기본적으로 타임 스탬프 -> entry1, entry2 ... 각 항목이 A, B, C로 구성되어 있습니까? A, B, C는 항상 동일한 유형이며 이 아니며 각각이 아닙니다.
entry1과 entry2는 무엇입니까? 다음 줄에 A, B, C와 같은 타임 스탬프 라인의 A, B, C가 있습니까? –
'여기서 각 항목은 A, B, C'로 구성되므로 entry1과 항목 2는 A, B, C입니다. 예 – Dimebag
A, B, C가 모두 같은 경우 타임 스탬프로 시작하는 줄을 필터링 한 다음 해당 줄을 사용하여 간단히지도를 구성 할 수는 없습니까? –