Hadoop (hbase)에 wikipedia 덤프 (mysql 테이블, 압축 파일 약 50GB)를 가져와야합니다. 이제는 먼저 mysql에 덤프를로드 한 다음 mysql에서 hadoop으로 데이터를 전송한다. 그러나 mysql에 데이터를로드하는 데는 4-7 일 정도의 시간이 걸린다. mysql 덤프를 hadoop에 직접로드 할 수 있습니까 (일부 덤프 파일 파서 또는 유사한 방법을 사용하여)?큰 mysql 덤프를 hadoop으로 가져 오는 방법은 무엇입니까?
답변
내가 아는 한 - MySQL 덤프는 거의 전적으로 삽입 문으로 설정되어 있습니다. 매퍼에서 프로세스를 분석하고 프로세스를 진행할 수 있습니다 ... 자바에서 단 한 번의 테이블 하드 코드 파싱 만하면됩니다.
을 사용할 수 있습니다. 예, 작동합니다. 7 억 6 천만 레코드 덤프를 csv 형식으로 변환하는 데 1 시간 밖에 걸리지 않습니다. 그 후 hadoop이나 mongo 로의 import는 사소하다. – hudvin
도움이되어 기쁩니다 –
sqoop을 사용하십시오. 지도를 사용하여 MySQL 데이터를 HDFS로 가져 오는 도구로 작업을 줄일 수 있습니다.
편리합니다.
데이터가 이미 mysql (jdbc를 통해 액세스 가능)이되어야 함을 알고 있습니다. – hudvin
Sqoop은 CSV 및 Avro 형식 파일에서 가져올 수 있습니다 - http://sqoop.apache.org/docs/1.4를 참조하십시오. 4/SqoopUserGuide.html # _file_formats – blueberryfields
- 1. 데이터베이스에서 제외 된 일부 테이블에서 MySQL 덤프를 가져 오는 방법
- 2. 큰 wikipedia sql 파일을 mysql 데이터베이스로 가져 오는 방법은 무엇입니까?
- 3. 데이터를 Hadoop으로 가져 오기 C#
- 4. 큰 SQL 덤프를 Xeround MySQL 데이터베이스에 업로드
- 5. 로컬 postgresql 덤프를 heroku로 가져 오는 가장 안전한 방법은 무엇입니까?
- 6. MySQL에서 Hadoop으로 데이터 가져 오기
- 7. 리눅스에서 mysql 데이터베이스를 가져 오는 방법은 무엇입니까?
- 8. MySQL 쿼리로 값을 가져 오는 방법은 무엇입니까?
- 9. 큰 데이터 세트를 mysql로 가져 오는 방법 - 올바른 방법은 무엇입니까?
- 10. tomcat에서 스레드 덤프를 자동으로 가져 오는 방법
- 11. 큰 xls 파일을 mysql 데이터베이스로 가져 오기
- 12. 위키 백과 페이지를 추출하고 가져 오는 방법은 무엇입니까?
- 13. 일부 테이블/열의 이름을 바꾸고 다른 테이블/열을 전혀 가져 오지 않고 mysql 덤프를 가져 오는 방법은 무엇입니까?
- 14. MySQL 데이터베이스 덤프를 새 PG 데이터베이스로 변환하는 방법은 무엇입니까?
- 15. 큰 XML 문자열에서 간단한 정보 조각을 가져 오는 방법은 무엇입니까
- 16. phpmyadmin을 사용하여 가져 오는 동안 큰 따옴표를 무시하는 방법은 무엇입니까?
- 17. 큰 따옴표를 문자열 리터럴로 가져 오는 방법은 무엇입니까?
- 18. URL에서 큰 json 데이터를 가져 오는 방법은 무엇입니까?
- 19. webservice partial에서 큰 데이터를 가져 오는 방법은 무엇입니까?
- 20. 큰 데이터 세트를 MongoDB로 가져 오는 가장 좋은 방법은 무엇입니까?
- 21. RDMS에서 큰 목록의 데이터를 가져 오는 가장 효율적인 방법은 무엇입니까?
- 22. MySQL 데이터베이스에 매우 큰 덤프 가져 오기
- 23. 매우 큰 MySQL 테이블에서 데이터를 가져 오는 알고리즘 최적화
- 24. wmp 서버에서 큰 mysql 데이터베이스를 가져 오는 방법
- 25. java에서 Mysql 덤프를 복원하는 이유는 무엇입니까?
- 26. MySQL 데이터베이스에서 Excel로 데이터를 가져 오는 방법
- 27. 문자열을 가져 오는 방법은 무엇입니까?
- 28. 이메일을 가져 오는 방법은 무엇입니까?
- 29. PLActorKit을 가져 오는 방법은 무엇입니까?
- 30. com.android.mms.R을 가져 오는 방법은 무엇입니까?
왜 데이터를 mysql로 옮기고 있습니까? 추가 처리에 사용하고 있습니까? 그렇지 않다면, 직접 데이터를 hadoop에 저장하는 방법이 있습니다. 답장을 기반으로 답을 추가 할 것입니다 –
아마 https://sqoop.apache.org/ – rretzbach