나는 HDFS에 디렉토리의 디렉토리를 가지고 있으며 디렉토리를 반복하고 싶다. SparkContext 객체를 사용하여 Spark에서 쉽게이 작업을 수행 할 수 있습니까?Spark iterate HDFS 디렉토리
답변
org.apache.hadoop.fs.FileSystem
을 사용할 수 있습니다. 특히,
그리고 스파크와 FileSystem.listFiles([path], true)
...
FileSystem.get(sc.hadoopConfiguration()).listFiles(..., true)
완벽한, 감사합니다. – Jon
정말 멋지다! [나는이 질문이 있었다] (http://stackoverflow.com/questions/34738296/spark-spark-submit-jars-arguments-wants-comma-list-how-to-declare-a-directory/35550151#35550151), 부여 된, 나는 이것이 원래의 spark-submit 호출에서 작동하지 않을 것이라고 생각한다. – JimLohse
이것이 생성하는 RemoteIterator를 사용하여 파일 목록을 어떻게 만들 수 있습니까? – horatio1701d
import org.apache.hadoop.fs.{FileSystem,Path}
FileSystem.get(sc.hadoopConfiguration).listStatus(new Path("hdfs:///tmp")).foreach(x => println(x.getPath))
이 나를 위해 일했다.
스파크 버전 1.5.0 - cdh5.5.2
val listStatus = org.apache.hadoop.fs.FileSystem.get(new URI(url), sc.hadoopConfiguration).globStatus(new org.apache.hadoop.fs.Path(url))
for (urlStatus <- listStatus) {
println("urlStatus get Path:"+urlStatus.getPath())
}
:
hadoop = sc._jvm.org.apache.hadoop
fs = hadoop.fs.FileSystem
conf = hadoop.conf.Configuration()
path = hadoop.fs.Path('/hivewarehouse/disc_mrt.db/unified_fact/')
for f in fs.get(conf).listStatus(path):
print f.getPath()
이 특히 나는 disk_mrt.unified_fact 하이브 테이블을 구성하는 모든 파일의 목록을 얻습니다.() 파일 크기를 얻기 위해 여기에 설명되어 있습니다 getLen 같은 FileStatus 객체의
다른 방법 :
- 1. MAPR 클러스터의 HDFS 디렉토리
- 2. HDFS 디렉토리 스파크에서 매개 변수
- 3. HDFS 홈 디렉토리
- 4. 새로운 Spark StreamingContext가 hdfs 오류로 인해 실패합니다.
- 5. "iterate through"또는 "iterate over"무언가입니까?
- 6. python을 사용하여 hdfs 디렉토리 할당량을 설정하는 방법
- 7. Hadoop HDFS 명령 - 디렉토리 이름 바꾸기
- 8. 스파크 필요 HDFS
- 9. DataStax Enterprise with HDFS 및 Spark with Cassandra
- 10. Python List Iterate Trouble
- 11. iOS iterate UITableView
- 12. Python Iterate over NoneType
- 13. HBase + HDFS - hdfs 블록이 누락되었습니다.
- 14. Python Iterate 2D array __iter__
- 15. Java iterate 2 검색을위한 목록
- 16. webhdfs를 사용하여 HDFS 디렉토리 내용을 나열하는 방법은 무엇입니까?
- 17. 디렉토리 이름에 공백이있는 파일을 hdfs 디렉토리에 어떻게 두는가?
- 18. HDFS-2556 극복 : 유닛 테스트 디렉토리 및 사용 권한
- 19. OOzie Spark : code 101 error
- 20. 2 Hdfs 파일 비교
- 21. Heroku에 Apache Spark 배포
- 22. 파일 이름 바꾸기 HDFS
- 23. : 로컬 파일을 HDFS 대
- 24. HDFS : HDFS API를 사용하여 SequenceFile에 추가하기
- 25. Hadoop hdfs cat 파이프 edgenode from hdfs
- 26. Spark DataFrame vs sqlContext
- 27. HDFS - 사용자
- 28. 는 HDFS
- 29. NoSQL없이 HDFS
- 30. Spark
당신이 내 하위 디렉토리와 파일의 목록을 얻을처럼 '으로 반복'을 의미? 또는 모든 하위 디렉토리에서 모든 파일을 가져 오는 중입니까? – maasg
목록에서와 같이 모든 하위 디렉토리를 반복합니다. 각 하위 디렉토리에는 여러 가지 방법으로 처리하려는 텍스트 파일이 들어 있습니다. – Jon