2011-05-16 3 views
1

나는 hdfs에 200 개 이상의 xml 파일을 가지고있다. XmlInputFormat (mahout)을 사용하여 요소를 스트리밍합니다. 매퍼는 XML 내용을 가져 와서 처리 할 수 ​​있습니다. 그러나 문제는 첫 xml 파일 만 처리됩니다. 그러나 많은 수의 작은 텍스트 파일을 처리하면 첫 번째 파일이 처리 된 후 다음 파일이 Hadoop에 의해 매퍼로 전달됩니다. 이것이 xml 파일의 기본 동작이 아니며 전체 XML 파일 집합을 반복 처리해야하는 경우 알려주십시오. 감사.XML Processing in hadoop

+0

지도 작성을 시작하는 방법을 보여줄 수 있습니까? 당신이하고있는 일의 예를 제시 할 수 있습니까? Mapreduce를 부적절하게 시작하여 잘못 작성된 매퍼와 그 이상에 이르기까지 다양합니다. 정보가 충분하지 않습니다. – Nija

답변

1

정상적인 XmlStreamRecordReader 클래스를 사용하여 행운을 빌어 준 다음 표준 입력 (Python, Hadoop Streaming API 사용)을 반복합니다.

파일의 크기는 어느 정도이며 단일 시스템 또는 다중 노드 클러스터에서이 파일을 실행하고 있습니까? HDFS 블록 크기는 어떻게 설정됩니까?