2009-12-29 2 views
0

단어 파일을 1000f로 변환하려는 경우 Hadoop을 사용하여이 문제에 접근하겠습니까? Hadoop을 사용하면 단순히 작업 큐가있는 여러 EC2 인스턴스를 사용하는 것보다 이점이 있습니까?Hadoop을 사용하여 Word 문서를 PDF로 변환

또한 1 개의 파일과 10 개의 사용 가능한 노드가있는 경우 hadoop이 파일을 분할하여 10 개의 노드로 보내거나 9 개의 유휴 상태에서 파일을 단지 1 개의 노드로 보냅니 까?

답변

2

이 사용 사례에 대해 hadoop을 사용하면 많은 장점이 없습니다. 경쟁 소비자가 대기열에서 읽고 출력물을 생성하는 것이 설치가 훨씬 쉬워지고 아마도 더 효율적일 것입니다.

Hadoop은 differnt 노드에서 문서와 프로세스 섹션을 자동으로 분할하지 않습니다. 실제로 페이지 크기가 수천 페이지에 이르는 경우 Hadoop 사용 사례는 의미가 있습니다. 단 한 대의 컴퓨터에서 pdf를 작성하는 시간이 중요한 경우에만 가능합니다.

맵 작업은 각각 수천 페이지를 인쇄 할 수 있으며 줄이기 작업은 PDF를 단일 문서로 병합합니다. 결과 파일을 읽는 것은 매우 큰 경우 읽기가 어려울 수 있습니다.

1

말은 나는이 문제에 접근 이해하기 위해 하둡 를 사용하는 것이 다음 파일을 PDF로 단어를 1000로 변환하려면? Hadoop을 사용하면 단순히 작업 대기열이있는 여러 EC2 인스턴스를 사용하는 것 이상의 이상의 이점이 있습니까?

어느 도구가이 작업을 수행 할 수 있다고 생각합니다. 따라서 변환 후 문서로 수행 할 계획에 따라 다릅니다. 뉴욕 타임즈의 Derek Gottfrid famously은 Hadoop이 대규모 문서 변환에 유용한 도구라는 것을 알았으므로 Hadoop이 잘 수행하는 작업 영역에 확실히 포함되어 있습니다.

다음 9 유휴 동안 단 1 노드로 전송 될 파일 을 분할하고 10 개 노드로 보내거나 파일을 합니다 하둡 것 1 개 파일 10 개 무료 노드가 있었다 또한 경우에?

귀하가 사용하는 InputFormat에 따라 다릅니다. 설명서에서 볼 수 있듯이 큰 문서를 여러 조각으로 나눌 수있는 "InputSplits"계산 방법을 지정할 수 있습니다.

이 문제를 해결하기위한 도구를 선택하십시오.

감사합니다, 제프

0

얼마나 많은 1000의 소리 야? 이 도구가 일회성 배치 일 경우 한 대의 컴퓨터에서 설정하고 실행 만하면됩니다. 작업을 실행해야하는 경우에도 1000s의 문서를 PDF로 변환하는 속도가 얼마나 빠를까요? 며칠 후, 한 번 변환하면 Hadoop과 같은 합병증이 필요 없습니다. 당신이 계속해서 1000s의 문서를 변환하고 있다면, 아마도 다른 것을 설정하려는 노력의 가치가있을 것입니다.

관련 문제