MySql 서버와 같이 HDFS가 아닌 다른 저장소를 제공 할 때 Hadoop의 Map/Reduce 부분의 데이터 지역성 기능은 어떻게됩니까? 즉, Hadoop Map/Reduce가 데이터 지역을 사용하여 데이터가있는 동일한 노드에서 맵 작업을 실행하려고하지만 데이터가 SQL 서버에 저장되면 태스크 노드에 로컬 데이터가 없습니다. 모든 데이터는 SQL Server 노드에 있습니다. 그렇다면 데이터 지역성을 잃어 버리는가 아니면 데이터 지역성의 정의가 변하는가? 그것이 바뀌면 새로운 정의는 무엇입니까?HDFS를 사용하지 않을 경우의 데이터 지역
답변
데이터가 클러스터에없는 경우 데이터 위치가 없습니다. 모든 데이터는 원격 소스에서 복사해야합니다. 이는 HDFS의 데이터가 포함 된 노드에서 작업을 실행할 수없는 경우와 같습니다. S3, HBase 및 DB를 포함한 원격 소스를 사용하는 여러 입력 형식이 있습니다. HDFS에 데이터를 넣을 수 있다면 좋습니다. 나는 자주 정기적으로 소량의 데이터를 원격 소스로 Mongo를 사용하는데, 나는 그 결과에 만족하고있다.
답변 해 주셔서 감사합니다. 소량의 데이터를 의미하는 것에 대해 나에게 약간의 아이디어를 주시겠습니까? 또한이 작은 게임을 실행하는 데 얼마나 많은 동시 매퍼를 사용할 수 있습니까? 나는 단지 전체적인 그림을 얻고 싶다. – iCode
가장 큰 테이블은 아마도 Mongo에서 20MB입니다. 나는 단지 매퍼를 사용한다. 얼마나 많은 매퍼가 당신의 샤딩에 의존 할 것입니다. https://github.com/mongodb/mongo-hadoop을 살펴보십시오. –
이 크기는 네트워크 대역폭으로 제한됩니다. –
- 1. 인덱싱 된 테이블 DML 인덱스를 사용하지 않을 경우의 성능
- 2. MPI를 사용하지 않을 때
- 3. 힙 덤프가 생성되지 않을 경우의 적절한 전략
- 4. HDFS를 포맷하는 동안 UnknownHostException
- 5. gridview를 사용하지 않을 때
- 6. ACS를 사용하지 않을 때?
- 7. MVVM을 사용하지 않을 때?
- 8. CoreAnimation을 사용하지 않는 경우와 사용하지 않을 경우
- 9. Executor를 사용하는 경우와 사용하지 않는 경우의 차이점
- 10. 통합 테스트를 사용하지 않을 경우
- 11. 스프링을 사용하지 않을 때의 문제점
- 12. Drupal 노드를 사용하지 않을 때?
- 13. SQL 인덱스를 사용하지 않을 때
- 14. 컴퓨터를 사용하지 않을 때 알아보기
- 15. 사용하지 않을 때 UIViewController 해제
- 16. iPhone 가속도계를 사용하지 않을 때
- 17. 저장 지역/도시 데이터
- 18. 사용시기 및 사용하지 않을 때 마지막으로 시도하십시오.
- 19. Google지도 API가 지역 힌트를 사용하지 않습니다.
- 20. SQL Server CASE WHEN을 사용하지 않을 때
- 21. DP 및 PX 측정을 사용하지 않을 때 및 사용하지 않을 때
- 22. 지역 경계 용 GIS 데이터
- 23. 지도 데이터 (R 세계 지역)
- 24. Cloudera 관리자가 HDFS를 포맷하지 못했습니다. topology.py.vm이 누락되었습니다.
- 25. TaskCreationOptions.LongRunning을 사용하지 않을 때 이상한 동작이 발생했습니다.
- 26. Application_Start() 사이트를 사용하지 않을 때마다 호출됩니다.
- 27. 레일스는 기본 키를위한 시퀀스를 사용하지 않을 것인가?
- 28. parfor를 사용하지 않을 때만 오류가 발생합니까?
- 29. 휴대 기기를 사용하지 않을 때 리디렉션
- 30. 엔티티 프레임 워크를 사용하지 않을 때
하둡 중 어느 부분입니까? MapReduce? –
질문을 이해할 수 없습니다 !! – Debaditya
질문을 업데이트했습니다. 다행히도 지금은 더 분명합니다. – iCode