2017-05-20 2 views
0

내 데이터에 대해 NLP (자연어 처리) 처리를하고 있습니다. 데이터 형식은 PDF/Text/Word/HTML 유형이 될 수 있습니다. 이러한 파일은 로컬 디스크의 중첩 된 디렉토리 구조에 저장됩니다.Spark로 PDF/text/word 파일을 효율적으로 읽음

독립형 Java 기반 NLP 파서는 입력 파일을 읽고이 파일에서 텍스트를 추출하고 추출 된 텍스트에 NLP 처리를 수행 할 수 있습니다.

내 Java 기반 NLP 파서를 Spark 클러스터에서 변환하도록 변환 중입니다. Spark이 디렉토리에서 여러 텍스트 파일을 읽고 추가 처리를 위해 RDD로 변환 할 수 있다는 것을 알고 있습니다. 필자의 입력 데이터는 텍스트 파일뿐만 아니라 다양한 파일 형식으로되어 있습니다.

내 질문은 : Spark 클러스터에서 이러한 파일을 처리하기 위해 Java 기반 Spark 프로그램에서 입력 파일 (PDF/Text/Word/HTML)을 효율적으로 읽는 방법은 무엇입니까?

답변

0

이 파일은

sparkContext.binaryFiles() 

의해 판독 될 수 있고, 다음 파서로 처리 될 수있다.

관련 문제