2016-06-24 4 views
0

내가 Array("Hello World", "How are you today?")새 줄로 병렬 처리 하시겠습니까?

는 대신, 모든 문자는 별도의 요소 배열을 반환 반환 sc.parallelize("Hello, World\nHow are you today?").collect() 싶습니다의 내가 문자열 "Hello, World\nHow are you today?"

있다고 가정 해 봅시다.

문자 대신 새 줄로 문자열을 병렬화하는 방법은 무엇입니까? 당신이 실제로 이미 그 안에 줄 바꿈이 메모리 큰 문자열이있는 경우

sc.parallelize(myString.split("\n")).collect() 

: 나는 일반적으로 단지 같은 것을 할 거라고이 특정한 경우

답변

1

.

스파크를 사용하는 경우 더 일반적인 경우에 메모리 BLOB으로 이미 수 편리 것보다 당신이 데이터를 포함하는 파일이있는 경우, sc.textFile 자동 구분 기호로 줄 바꿈을 사용하는 경우, 더 많은 데이터를 처리하는 것입니다 기본적으로 :

sc.textFile("file:///home/user/mydata.txt").collect() 

어디 mydata.txt 보일 수 있습니다와 같은 :

Hello World 
How are you today?