나는 flume과 Kafka를 알고 있지만 이벤트 드리븐 도구입니다. 이벤트 중심 또는 실시간 일 필요는 없지만 하루에 한 번만 가져 오기를 예약 할 수 있습니다.API에서 데이터를 가져 와서 HDFS에 저장하는 방법
API에서 HDFS로 데이터를 가져 오는 데 사용할 수있는 데이터 처리 도구는 무엇입니까?
HBase가 아닌 HDFS와 하이브 중 하나를 사용하고 있습니다.
꽤 많은 시간 동안 나는 R
언어를 사용했지만 좀 더 견고하며 Hadoop 환경의 기본 솔루션이 될 수 있습니다.
파이썬 스크립트 만 있으면이 데이터를 텍스트 파일에 저장할 수 있습니다. 변경된 경우 데이터를 어떻게 업데이트합니까? 보통 JSON을 CSV로 변환 한 다음 하이브로 매핑합니다. CSV에서 행을 업데이트하는 것은 많은 문제입니다.이 문제에 접근하는 방법은 무엇입니까? –
매번 전체 CSV 파일을 바꾸거나 API에서 새롭거나 업데이트 된 데이터 만 가져온 다음 테이블에 기록 데이터를 보관하고 레코드를 업데이트/추가 할 수있는 삽입 덮어 쓰기 문으로 대상 하이브 테이블을 업데이트합니다 필요에 따라. – Jared
오, 멋지다. 그게 가능하니? 파이썬이나 R과 같은 프로그래밍 언어를 사용하여 하이브의 행을 새로운 값으로 업데이트하는 방법? 나는 CSV 파일을 대체하려고했지만 좋은 느낌이 들지 않습니다. –