2012-04-25 3 views
0

2 백만 개 정도의 큰 파일 크기에 Hadoop을 사용하는 것에 대한 설명이 있습니다. 필자는 각 라인을 하나의 파일로 분할하여 Hadoop File System에 복사하고 Mahout을 사용하여 용어 빈도를 계산하기 위해 2 백만 라인으로 구성된 파일 데이터를 가지고 있습니다. Mahout은 분산 방식으로지도 - 축소 계산을 사용합니다. 하지만 이렇게 말하면 2 백만 줄로 구성된 파일이 있다면 각 줄을 용어 - 빈도 계산을위한 문서로 가져 가고 싶습니다. 마침내 필자는 200 만 개의 문서를 갖게 될 하나의 디렉토리를 갖게 될 것이며, 각 문서는 한 줄로 구성됩니다. 이것은 n 파일을위한 n-map을 생성 할 것인가? 이것은 계산에 많은 시간을 필요로합니다. 더 빠른 계산을 위해 문서를 표현하는 다른 방법이 있습니까?하둡 파일 크기 설명

답변

1

2 백만 개의 파일이 hadoop에 많이 있습니다. 그 다음으로, 2 백만 건의 작업을 실행하는 데 약 2M 초의 오버 헤드가 발생합니다. 이는 몇 일간의 소규모 클러스터 작업을 의미합니다. 나는 문제가 알고리즘 적 성격이라고 생각한다. 계산을지도에 어떻게 맵핑 할 것인가하는 방식으로 패러다임을 줄인다. 당신은 적당한 수의 매퍼를 가질 것이다. 필요한 작업에 대해 몇 줄을 버리면 알고리즘을 제안 할 수 있습니다.

0

Mahout에는 텍스트에 TF와 IDF를 계산하기위한 구현이 있습니다. mahout liberary를 확인하십시오. 및 각 줄을 파일로 나누는 것은 hadoop map reduce framework에서 좋지 않습니다.