내 응용 프로그램에서지도지도의지도에 대한 Avro 스키마 (4 레벨 중첩 된지도)를 정의해야한다는 요구 사항이 있습니다. 마지막지도 (최종 내부지도)를 제외한 모든 레벨에서 키를 사용하고 있습니다. 나는 스키마의 장단점을 알고 싶다. 성능에 문제가 있습니까?Avro 스키마의지도지도의지도
답변
항상 중첩 된 맵을 사용하지 마십시오.
AVRO 파일 형식은 스키마 기반입니다. 중첩 된 맵을 사용하면 스키마를 설계하기가 어려워집니다. 또한 avro는 직렬화 기술을 기반으로합니다. "String"을 사용하여 작업한다면 잘 작동하지만 다른 데이터 유형의 경우에는 작동하지 않습니다.
스키마 디자인에는 문제가 없습니다. 나는 이미 스키마를 디자인했다. 하지만 이것에 대한 장단점을 알고 싶습니다. –
성능 저하입니다. 탈 직렬화가 진행되는 동안 매번 객체가 재생성됩니다. 중첩 된지도를 사용하는 경우 동일한지도를 다시 만드는 것이 얼마나 힘든지 생각해보십시오. – Vijayakumar
스키마 맵 >>을 선택하면 주어진 키에 많은 가치가 있음을 의미합니다.
마루와 같은 칼럼 데이터 저장소를 찾기 시작해야하는 고전적인 사례입니다.
AVRO와 마루를 섞어서 Avro 스키마를 평평하게하십시오.
쪽모 세공은 칼럼 형식 데이터 형식이므로 반복되는 데이터를 여러 번 저장하지 않고 한 번만 저장합니다.
ORC를 사용하면 대답하기 아브
http://bytepadding.com/big-data/spark/read-write-parquet-files-using-spark/
- 1. 소켓을 통해 avro (avro c) 인코딩 된 데이터 보내기
- 2. Avro C++ 라이브러리를 사용하여 바이트 스키마가있는 avro 파일을 읽는 방법
- 3. 왜 DataFrameReader에 avro 파일을 읽는 "avro"메서드가 없습니까?
- 4. Hadoop - Avro : java.lang.NoClassDefFoundError : org/apache/avro/hadoop/io/AvroKeyComparator
- 5. 아파치 avro 반영 사용
- 6. Apache Avro C 설치
- 7. 지난 주 동안 Avro
- 8. spark-avro 설치
- 9. Avro tojson 날짜 형식
- 10. 여러 Avro 스키마가있는 flume
- 11. 스키마가없는 Avro 바이트 덤프
- 12. Avro RPC/Storm 통합
- 13. Avro Mapreduce가 실패했습니다. org.apache.avro.AvroTypeException
- 14. avro 스키마의 선택적 배열
- 15. NiFi로 HBase에 Avro 대량로드
- 16. Kaa - Avro 논리 유형
- 17. RdKafka Avro Consumer
- 18. HDFS에 Avro 파일 저장
- 19. AVRO 유효성 확인
- 20. AVRO 파일에 데이터가 누락되었습니다.
- 21. Sqoop, Avro 및 Hive
- 22. Avro 크기가 너무 큽니까?
- 23. HDFS의 Avro 스키마 생성
- 24. 엔터프라이즈 아키텍트의 Avro 스키마
- 25. spark-avro databricks package
- 26. Spark AVRO with BigQuery
- 27. Pyspark + 하이브 avro 테이블
- 28. avro 스키마에서 Java 클래스 사용
- 29. Solr 색인 Avro 파일을 사용합니다.
- 30. Java의 HBase에서 Avro 레코드 읽기
불가능에 대한 간단한 스키마와 함께 종료됩니다. 그것은 데이터에 따라 다릅니다. 4 레벨 맵은 꼭 필요한 경우에만 문제가되는 것은 아닙니다. – Michael
응용 프로그램의 성능은 어떻습니까? –