Apache Pig는 입력 데이터 크기에 제한이 있습니까?

TeraBytes의 데이터로 작업 할 때, 그리고 일반적인 데이터 필터링 문제에 대해 Apache PIG가 올바른 선택입니까? 또는 맞춤 MapReduce 코드로 작업하는 것이 더 좋습니다.Apache Pig는 입력 데이터 크기에 제한이 있습니까?

출처

2012-09-27 Arun A K

Apache PIG는 저장 영역의 역할을하지 않습니다. PIG는 Hadoop에서 실행할 수있는 코드 작성을 단순화하는 스크립팅 언어입니다. PIG 스크립트는 Hadoop에 제출되고 다른 MapReduce 작업과 같은 방식으로 실행되는 Hadoop MapReduce 작업 세트로 컴파일됩니다.

하둡은 PIG가 아니라 데이터 저장을합니다.

질문에 대답하십시오 : 아니오, 입력 데이터의 크기에는 제한이 없습니다. 입력 데이터가 PIG로드 함수로 구문 분석 될 수 있고 Hadoop InputFormats로 분할 가능하면 가능합니다.

PIG 스크립트는 표준 Java Hadoop 작업보다 쉽고 빠르며 PIG는 멀티 쿼리 실행과 같은 영리한 최적화 기능을 많이 갖추고있어 복잡한 쿼리를 더 빨리 실행할 수 있습니다.

출처

2012-09-27 09:40:29 alexeipab

정확히 내가 알아야 할 것 - 입력 데이터의 크기에는 제한이 없습니다. " 그걸 당연한 것으로 받아 들여야합니까? 나머지는 괜찮습니다. HDFS에 충분한 저장 공간이 있고 파일은 InputFormats에서 쉽게 인식 할 수 있습니다. –

하드웨어, 네트워크, 메모리, 코어, 블레이드 만 제한됩니다. Apache PIG가 아닙니다. BLOCK으로 LZO로 압축 된 SequenceFiles를 사용해 볼 수 있습니다. PIG는 기본적으로하지 않지만 Piggy Bank에는 일부가 있습니다. – alexeipab

Apache Pig는 입력 데이터 크기에 제한이 있습니까?

답변

관련 문제