2012-08-06 2 views
0

시간이 지남에 따라 스키마가 부가적인 데이터 아카이브에 대해 계단식을 사용하는 방법을 파악하려고합니다. 왜 제가 첨가제를 사용한다는 것은 3 열로 시작한다는 것입니다. 그런 다음 다음 릴리스에서는 5 개의 열을 가질 수 있습니다. 이 열은 표준 CSV 레이아웃을 따릅니다. 필자가 스키마를 5 열 길이로 지정하고 이전 스키마가 3 일 경우 계단식 연결은 실패합니다.Hadoop Cascading으로 스키마 변경

누락 된 열을 채우기 위해 계단식 연결을 사용하는 방법이 있습니까? 기본 = null처럼?

+0

은 Fields.UNKNOWN이 유용 할 수 있습니다. –

답변

1

구분 된 텍스트의 경우 스키마의 특수한 생성자가 있습니다. 여기서 생성자 인 Cascading JavaDoc은 구문 분석의 엄격함을 조정할 수 있다고 말합니다. strict가 false라고 말하면, Cascading은 끝에 null을 추가하여 데이터를로드합니다. 이것에 대한 혼란은 이해할 수있는 것처럼 보입니다. cascading user group에서 이것을 수행하는 방법에 관한 두 개의 스레드가 있기 때문입니다.

0

스키마를 하드 코딩하는 대신 구성을 통해 구성 할 수 있습니다.

속성 파일/xml 파일에서 열 목록을 정의 할 수 있습니다.

자주 변경하지 않아도됩니다.

예 :

열 : cloumn1, 2 열, 3 열 직접 Fields 생성자에 해당 문자열 배열을 전달할 수 있습니다

.

사실 저는 이것을 현재 프로젝트에서 성공적으로 구현했습니다.

관련 문제