etl

    10

    7답변

    대용량의 데이터를 CSV (3 백만 + 행)에서 데이터베이스로로드하는 가장 효율적인 방법은 무엇입니까? 데이터 (예 : 이름 열은 성과 이름으로 분리 할 등을 필요로) 나는 가능 즉, 시간의 제약으로 효율적으로이 작업을 수행 할 필요가 포맷해야 C# 응용 프로그램을 행 단위로 사용하여 데이터를 읽고 변환하고로드하는 옵션이 있습니다. 이것이 이상적인가, 그렇

    2

    2답변

    텍스트 데이터와 임베디드 바이너리 데이터를 모두 포함하는 압축 바이너리 파일을 가져 오거나 변환하고 추출하는 작업이 있습니다. 데이터 내에서 본질적으로 관계형이며 정의 된 데이터베이스 구조로 처리해야하는 데이터입니다. 현재 나는 C# 단일 스레드 응용 프로그램을 기본적으로 디렉터리에서 모든 파일을 잡아 (현재 거기에 다양한 크기의 13 K 파일) 및 단일

    0

    1답변

    주정부는 운송 시간표 데이터를 열었습니다. 데이터는 XML 기반 TransXchange 표준 형식입니다. 문제는 데이터 파일이 큽니다. 샘플 데이터 파일 자체는 300MB입니다. 데이터의 대부분은 중복되어 있으며 응용 프로그램에는 필요하지 않습니다. 어떤 옵션을 SQL Server에 필요한 데이터 만 삽입/변환해야하는지 궁금합니다. 감사합니다.

    2

    2답변

    MySql에서 하나의 ETL 프로젝트를 구현하는 가장 좋은 무료 솔루션은 무엇입니까? 분석가가 많은 양의 데이터를 추출해야하고 다른 테이블에 결과를 저장해야합니다. 감사합니다, 페드로

    1

    2답변

    현재 트랜잭션 시스템에서 데이터웨어 하우스를로드하기 위해 ETL 시스템을 구축 중입니다. 내 사실 테이블의 곡물은 거래 수준입니다. 중복 행을로드하지 않기 위해 사실 테이블 (트랜잭션 ID)에 기본 키를 넣었습니다. 트랜잭션이 역전되는 문제가 발생했습니다. 트랜잭션 데이터베이스에서이 작업은 상태를 통해 수행됩니다. 트랜잭션은 완료되었거나 트랜잭션이 완료되면

    2

    1답변

    SQL Server 2008에서 큰 테이블 (~ 100.000.000 행)으로 작업하고 있습니다. 종종 ~ 30.000.000 행의 일괄 처리를 추가 및 제거해야합니다. 이 테이블에서. 현재 테이블에 큰 일괄 처리를로드하기 전에 인덱스를 비활성화하고 데이터를 삽입 한 다음 인덱스를 다시 작성합니다. 나는 이것을 가장 빠른 방법으로 측정했다. 최근에는 속도를

    1

    1답변

    데이터 마트에서 사실 테이블을 채우기위한 아이디어를 찾고 있습니다. 나는 다음과 같은 차원이 있다고 가정하자 의사 나는 차원을 채우기 위해 두 ETL 툴을 사용했다 환자 날짜 geo_location patient_demography 테스트 테이블 - Pentaho 및 Oracle Warehouse Builder. 날짜, 환자 인구 통계 및 지리적 위치는 운

    0

    1답변

    200 개 이상의 분산 시스템 (Windows, AS400, Linux 등)의 ETL 시스템에 대한 권장 사항을 찾고 있습니다. 우리는 모든 고객으로부터 (시스템 유형에 관계없이) 데이터를 수집하고, 다시 가져와 함께 처리하고, 집계 솔루션을 다시 고객에게 보냅니다. 이 시스템을 자동화하는 임무가 주어집니다.이를 강력하게 수행하는 방법에 대한 제안은 휠을

    0

    1답변

    SSIS를 처음 사용하기 때문에 나와 함께하시기 바랍니다. SQL Server 2008 용 Integration Services 프로젝트를 만들어 이전 데이터베이스의 데이터를 새 데이터베이스로 가져 왔습니다. 필자가해야 할 일 중 하나는 이전의 두 원본 테이블에서 하나의 새로운 대상 테이블로 데이터를 가져 오는 것입니다. 가장 좋은 방법은 무엇입니까? ts

    1

    1답변

    Talend를 사용하여 데이터웨어 하우스를 채우고 있습니다. 제 업무는 고객 데이터를 차원 테이블에, 트랜잭션 데이터를 사실 테이블에 쓰는 것입니다. 사실 테이블의 서로 게이트 키 (p_key)는 자동으로 증가합니다. 새로운 고객을 삽입 할 때 관련 고객의 ID를 반영하기 위해 사실 테이블이 필요합니다. 내가 언급 한 것처럼 p_key는 자동 auto_in