2014-07-18 2 views
-2

하둡에 대해 많은 이야기를 들었지만 혼란 스럽다는 것을 정의 할 때가 왔습니다. 정의 방어는 지점을 형성하기 때문입니다.생산 구현의 하둡 우수 사례

서버에서 클라이언트까지 파일을 제공하는 Hadoop이 있습니까?

예 : 전자 메일이 저장되는 MAILDIR으로 Hadoop을 구현하는 경우 Hadoop이 이메일에 액세스하여이를 클라이언트에게 매우 빠른 속도로 제공 할 수 있습니까? 어떻게 사용할 수 있습니까?

simple words으로 알려 주실 수 있습니까? Hadoop 및 그 용도는 무엇입니까?

+1

마우스를 hadoop 태그 위로 가져 가면 간단한 단어로 표시됩니다. – Banana

답변

4

야, 너 이걸 망치고있어.

Hadoop은 범용 하드웨어 클러스터에서 데이터 세트를 저장하고 대규모로 처리하기위한 오픈 소스 소프트웨어 프레임 워크입니다. Hadoop은 기여자와 사용자로 구성된 글로벌 커뮤니티에서 만들고 사용하는 Apache 프로젝트입니다.

아파치 하둡 프레임 워크는 다음과 같은 모듈

  1. 하둡 공통으로 구성되어

    - 분산 파일 - - 다른 하둡 모듈

  2. 하둡 분산 파일 시스템 (HDFS)에 필요한 라이브러리와 유틸리티가 포함되어 있습니다 시스템은 상품 기계에 데이터를 저장하여 클러스터 전체에 걸쳐 매우 높은 총 대역폭을 제공합니다.

  3. Hadoop YARN - 클러스터의 컴퓨팅 리소스를 관리하고이를 사용하여 사용자 응용 프로그램을 예약하는 리소스 관리 플랫폼입니다.
  4. 대규모 데이터 처리를위한 프로그래밍 모델 인 Hadoop MapReduce. 최종 사용자의 경우

, 맵리 듀스 자바 코드가 일반적입니다하지만, 모든 프로그래밍 언어는 사용자의 program.Apache 돼지, 아파치의 "지도"와 "감소"부분을 구현하는 "하둡 스트리밍"을 사용할 수 있습니다 Hive와 Apache Spark은 Pig Latin과 SQL 변형과 같은 상위 수준의 사용자 인터페이스를 제공합니다. Hadoop 프레임 워크 자체는 대부분 C 언어의 일부 원시 코드와 쉘 스크립트로 작성된 명령 행 유틸리티를 사용하여 Java 프로그래밍 언어로 작성됩니다.

Hadoop 분산 파일 시스템 (HDFS)은 Hadoop 프레임 워크 용 Java로 작성된 분산 형이며 확장 가능하고 이식 가능한 파일 시스템입니다. Hadoop 인스턴스의 각 노드에는 일반적으로 하나의 namenode가 있습니다. 데이터 노드의 클러스터가 HDFS 클러스터를 형성합니다. 각 노드는 데이터 노드가 존재할 필요가 없으므로 상황이 일반적입니다. 각 데이터 노드는 HDFS와 관련된 블록 프로토콜을 사용하여 네트워크를 통해 데이터 블록을 제공합니다. 파일 시스템은 통신을 위해 TCP/IP 소켓을 사용합니다. 클라이언트는 RPC (원격 프로 시저 호출)를 사용하여 서로 통신합니다.

HDFS는 여러 대의 컴퓨터에서 대용량 파일 (일반적으로 기가 바이트에서 테라 바이트 범위)을 저장합니다. 여러 호스트에 걸쳐 데이터를 복제함으로써 안정성을 달성하므로 이론적으로 호스트에 RAID 스토리지가 필요하지 않습니다 (그러나 I/O 성능을 높이기 위해 일부 RAID 구성은 여전히 ​​유용합니다). 기본 복제 값 3을 사용하면 데이터가 세 개의 노드 (동일한 랙에 2 개, 다른 랙에 1 개)에 저장됩니다. 데이터 노드는 서로 대화하여 데이터를 다시 조정하고, 복사본을 이동하고, 데이터 복제를 높게 유지할 수 있습니다.

HDFS 파일 시스템은 MapReduce 작업에만 국한되지 않습니다.HBase 데이터베이스, Apache Mahout 시스템 학습 시스템 및 Apache Hive 데이터웨어 하우스 시스템을 비롯한 다른 응용 프로그램에 사용할 수 있습니다. Hadoop은 이론적으로 실시간이 아닌 일괄 처리 지향적 인 작업, 즉 매우 데이터 집약적 인 작업이며 데이터 조각을 병렬로 작업 할 수있는 작업에 사용할 수 있습니다. 하둡의

상업용 응용 프로그램이 포함됩니다 : 다양한 종류의

  1. 로그인 및/또는 클릭 스트림 분석
  2. 마케팅 분석
  3. 기계 학습 및/또는 정교한 데이터 마이닝
  4. 이미지 처리
  5. 처리 XML 메시지 중
  6. 웹 크롤링 및/또는 텍스트 처리
  7. 일반 보관, 관계형/표 형식 데이터 포함 (예 : 준수를위한

YDN을 참조하여 hadoop 프레임 워크를 이해할 수 있습니다.