저는 Blocked sort-based indexing을 공부하고 있으며, 디스크 읽기가 블록 단위이므로 효율적이기 때문에 32 또는 64kb의 일부 블록으로 파일을로드하는 것에 대한 알고리즘을 설명합니다.블록 단위로 메모리에 파일을로드하십시오.
내 첫 번째 질문은 어떻게 파일을 블록 단위로로드해야합니까? 64KB의 버퍼 판독기입니까? 하지만 자바 입력 스트림을 사용하면이 최적화가 이미 완료되었거나 스트림을 처리 할 수 있는지 여부가 결정됩니다.
실제로 sparkContext.textFile()이 최적화를 수행하는지 여부에 관계없이 나는 apache spark를 사용합니까? 스파크 스트리밍은 어떨까요?
파일을 저장하는 데 사용하는 파일 시스템은 무엇입니까? 또한 파일의 형식은 무엇입니까? –
@AlexandreDupriez 일반 PC 스토리지 시스템이지만 Hadoop을 사용할 수도 있습니다. 파일은 txt가되지만 json, csv와 다른 경우 다른 솔루션을 알고 싶습니다. –