2017-05-05 2 views
0

MapReduce 작업을 통해 데이터를 분석하기 위해 데이터를 구문 분석하고 있습니다. 구문 분석 된 데이터는 일괄 처리 형식으로 제공됩니다. 스파크 스트리밍 작업을 통해 하이브 외부 테이블에로드됩니다. 이것은 실시간 프로세스입니다. 오늘 _temporary 디렉토리이 하이브 테이블에로드되지 않아서 출력 위치에 생성 된 것과 같이 비정상적인 이벤트가 발생하여 오늘 하이브 테이블에 디렉토리를로드 할 수 없어 실패했습니다. 한 번만 그런 일이 있었고 일자리의 나머지는 정상적으로 달리고 있습니다. 스크린 샷을 참조하십시오.mapreduce 작업이 완료되면 _temporary 디렉토리가 출력 위치에서 삭제되지 않습니다.

Screenshot of output location

_temporary 디렉토리는 더 비어있는 하위 디렉토리로 작업 ID를 포함합니다. 누구든지이 문제를 해결하는 데 도움을 받아 향후에 피할 수 있습니까?

답변

0

아직 작업이 완료되지 않은 경우 _temporary 디렉토리가 만들어 지므로 실제 위치를 임시 위치에서 옮길 수있는 데이터가 거의 없을 수 있습니다. 작업은 웹 UI에서 완료된 것으로 표시 될 수 있지만 데이터 이동은 아직 완료되지 않았습니다. 이 프로세스가 완료되면 _SUCCESS 파일 만 있습니다. _temporary 디렉토리의 크기를 모니터링하여이를 확인할 수 있습니다. 점차 축소 될 것입니다.

+0

이 디렉토리에는 아무 것도 없으며 배치가 성공적으로 완료되었습니다. 이상적으로는 _temporary 디렉토리를 삭제해야하지만 작업 완료 후에도 디렉토리가 발견됩니다. –

+0

안녕하세요, 저는 같은 문제에 직면 해 있습니다.이 유령 _Temporary 문제를 해결하기위한 해결 방법을 찾았습니까? @MohitRaja – KAs

관련 문제