2017-11-01 7 views
-2

우리는 Cassandra에서 SQL 로의 데이터 전송을 위해 Talend open studio를 사용하고 있습니다. Talend 작업을 사용하여 데이터를 읽는 동안 때때로 데이터 손실이 발생합니다. 그리고 우리는 같은 오류를 찾을 수 없습니다. Cassandra System/Debug Log조차도 매우 제한된 정보를 보여줍니다. 이 데이터 손실을 피할 수있는 Cassandra 또는 Talend Open 스튜디오에서 구성 할 수있는 설정이 있습니까?Talend를 사용하여 Cassandra에서 SQL로 데이터를 옮길 때

참고 : 우리는 5M 레코드/시간을 처리하고 있으며 데이터 손실의 약 1 %가 누락되었습니다. 이것은 일관된 문제가 아니라 간헐적 인 문제입니다.

+0

이 문제로 이어질 수있는 많은 포인트 (네트워크, OS, Java, RAM/CPU)가있을 수 있습니다. Talend가 실제로 문제인지 또는 데이터 손실이 사전에 발생하는지 확인하는 것이 도움이됩니다. 나는 당신이 그것을 배제 할 수 있다는 것을 알 수 없다. 데이터가 누출되는 곳을 찾아내는 데 몇 가지 생각을해야합니다. – tobi6

+0

흥미로운 질문이지만 매우 광범위하고 특정 프로그래밍 문제는 아닙니다. 제한된 정보가 주어지면 모든 대답은 추측이 될 수 있습니다. – Andrew

+0

CPU, RAM, OS를 모두 검사했지만 모든 데이터가 전송 중에 누락되었습니다. – BjMangat

답변

0

이런 상황에서 필자는 talend 내에 elasticsearch에 게시하는 Java 루틴을 작성했습니다. 당신이 가지고있는 탤런트 버전에 따라 이것은 재능이 있습니다. 또한 Elastic 및 Kibana를 사용하여 대규모 데이터 세트에서 로그 기반 분석을 매우 쉽게 수행 할 수 있습니다. 그러나 핵심은 훨씬 쉽게 Java 루틴을 사용하여 tjavarow를 사용하여 성공과 실패를 기록하는 것입니다.

관련 문제