I want to know the relationship between HDFS and databases.
는 2 사이와 같은 더 relation
없습니다. 그러나 이는 모든 FS 및 DB 조합과 유사합니다. 예를 들어, MySQL과 ext3. 당신은 MySQL에 데이터를 저장하고 있다고 말하지만 결국 FS에 저장된 데이터를 얻는다. 보통 사람들은 HBase와 같은 NoSQL 데이터베이스를 Hadoop 클러스터 위에 사용하여 HDFS에서 제공하는 병렬 처리 및 분산 된 동작을 활용합니다.
Is it always necessary that to use HDFS, the data be in a some NoSQL format?
실제로는 NoSQL format
과 같은 내용은 없습니다. 당신은 데이터, 텍스트, 바이너리, 모든 종류의 HDFS를 사용할 수있는 XML 등 등 HDFS과 함께 제공되는 유일한 MapReduce framework
입니다
Is there a specific database that always comes attached when using HDFS?
번호. 당신은 분명히 HDFS로 작업 할 수있는 DB를 만들 수 있습니다. 사람들은 종종 HDFS 위에 NoSQL DB를 사용합니다. 카산드라, HBase 등 여러 가지 선택이 있습니다. 어느 것을 사용할 것인지 결정하는 것은 완전히 당신에게 달려 있습니다.
Can I use a relational database as the native database for Hadoop?
허용되는 OOTB 기능이 없습니다.또한 Hadoop과 함께 RDBMS를 사용하는 것은별로 의미가 없습니다. Hadoop은 RDBMS가 데이터 PB 처리, 구조화되지 않은 데이터 처리 등과 같이 RDBMS가 적합한 옵션이 아닌 시대를 위해 개발되었습니다. 그런 말로하면 RDBMB 대신 Hadoop을 고려하지 않아야합니다. 둘 다 완전히 다른 목표를 가지고 있습니다.
편집 :
보통의 사람들은 하둡과 (HBase와 같은, 카산드라)되는 NoSQL DB를 사용합니다. 이러한 데이터베이스를 hadoop과 함께 사용하는 것은 구성의 문제 일뿐입니다. 이를 달성하기 위해 연결 프로그램이 필요하지 않습니다. @Doctor Dan이 지적한 점 외에도 SQL DB 대신 NoSQL DB를 선택하는 몇 가지 다른 이유가 있습니다. 한 가지는 size
입니다. 이러한 NoSQL DB는 데이터의 PB를 쉽게 저장할 수 있도록 뛰어난 수평 적 스케일을 제공합니다. 기존 시스템을 확장 할 수는 있지만 수직적으로 확장 할 수는 있습니다. 또 다른 이유는 complexity
데이터입니다. 이 DB가 사용되는 장소는 대개 매우 체계적이지 않은 데이터를 처리하기 때문에 기존 시스템을 사용하여 처리하기가 쉽지 않습니다. 예 : 센서 데이터, 로그 데이터 등
기본적으로 SQOOP가 존재하는 이유를 이해하지 못했습니다. 은 Hadoop에서 SQL 데이터를 직접 사용할 수없는 이유는 무엇입니까?
Hadoop은 BigData 요구 사항을 잘 처리하지만 사용자의 모든 요구 사항을 해결할 수있는 솔루션은 아닙니다. 실시간 요구에 적합하지 않습니다. 매우 거대한 데이터 세트를 가진 온라인 거래 회사라고 가정 해보십시오. Hadoop을 사용하면이 데이터를 매우 쉽게 처리 할 수 있습니다. 그러나 문제는 Hadoop을 통해 고객의 실시간 요구 사항을 충족시킬 수 없다는 것입니다. 여기가 SQOOP가 등장하는 곳입니다. SQL DB와 Hadoop간에 데이터를 이동할 수있는 가져 오기/내보내기 도구입니다. BigData를 Hadoop 클러스터로 옮기고 거기에서 처리 한 다음 SQOOP를 사용하여 결과를 다시 SQL DB로 푸시하여 고객의 실시간 요구를 충족시킬 수 있습니다.
HTH
도움이됩니다. 고맙습니다. Hadoop이 데이터를 복제한다는 점을 고려하지 않았습니다. 그렇기 때문에 SQL 데이터베이스가 네이티브 데이터베이스와 호환되지 않습니다. – crossvalidator