2012-10-11 4 views
2

현재 일부 DoubleClick 광고 로그를 Hadoop으로 가져 오려고합니다.하이브에서 아이슬란드 어 가시 문자를 구분 기호로 사용

이러한 로그는 페이지 1252 (Windows-ANSI?)를 사용하여 인코딩되고 아이슬란드 어 가시 문자를 구분 기호로 사용하는 gzip으로 구분 된 파일에 저장됩니다.

행복하게 이러한 로그를 단일 열로 가져올 수 있지만 Hive가 Thorn 문자를 이해할 수있는 방법을 찾지 못했습니다. 아마도 1252 인코딩을 이해하지 못했기 때문일 수 있습니다.

테이블 만들기 설명서 (http://hive.apache.org/docs/r0.9.0/language_manual/data-manipulation-statements.html)를 살펴 봤지만이 인코딩/구분 기호 작업을 수행하는 방법을 찾지 못했습니다.

나는이 파일들에 대한 인코딩이 ISO-8859-1이라는 제안을 https://karmasphere.com/karmasphere-analyst-faq에서 보았지만 하이브 또는 HDFS에서이 정보를 사용하는 방법을 알지 못합니다.

가져온 후에지도 작업을 수행하여 이러한 레코드를 여러 레코드로 분할 할 수 있음을 알고 있습니다.

그러나이 구분 기호를 직접 사용하는 쉬운 방법이 있습니까?

감사

스튜어트

답변

2

사용은 '\ -2' 숯불는 부호있는 바이트입니다. https://issues.apache.org/jira/browse/HIVE-237

+1

그래서 같은 : 외부 my_table 테이블 만들기 '종료 ( ID 문자열, 이름 STRING ) 행 형식으로 구분 된 필드 \ -2 그것을 생각하지 않는다

분명히 하이브 DEVS 문제입니다 ' 위치'/ my/hdfs/location '; –

관련 문제