2017-02-24 3 views
2

/project1 디렉토리의 hadoop 파일 시스템에 mr.txt라는 텍스트 파일 이름이 있습니다. mr.txt 파일을 로컬에 다운로드하지 않고 텍스트 파일의 첫 번째 줄을 읽으려면 python 코드를 작성해야합니다. 하지만 hdfs에서 mr.txt 파일을 여는 데 어려움이 있습니다. 나는 시도했다 :hdfs에서 파일을 읽는 방법

open('hdfs:///project1/mr.txt','r') 
+0

"mr.txt"를 다운로드하지 않고 ... 글쎄, 실제로 노드에서 파일을 수집해야합니다. –

답변

1

PySpark를 설치하십시오.

text = sc.textFile('hdfs:///project1/mr.txt') 
first_line = text.first() 
+0

감사합니다. @ cricket_007. 효과가있다. – Gokul

0

소프트웨어가하거나 실행된다 무엇보다 자세히 모른 채 ...

당신은 그래서 당신이 로컬에 HDFS 볼륨 액세스를 탑재 할 수있는 NFS server을 사용할 수 있습니다 . 이 옵션이 필요에 맞지 않으면 Hadoop Streaming을 사용해야합니다. 마지막으로 Spark 작업을 작성하는 경우 로컬 FS 인 것처럼 HDFS에 액세스 할 수 있습니다.

관련 문제