2012-08-07 4 views
1

API를 통해 BigQuery에 로컬 파일을로드하려고하는데 실패했습니다. 파일 크기는 98   MB이고 5 백만 개가 넘는 행입니다. 과거에 문제없이 동일한 수의 행과 약간 큰 파일 크기의 테이블을로드했습니다.BigQuery 테이블에 로컬 파일을로드하는 중 오류가 발생했습니다.

사용하고있는 코드는 다른 여러 테이블을 성공적으로 업로드하는 데 사용한 API 설명서의 코드와 정확히 동일합니다. , CloudStorage (dw_tests/TestCSV/test.csv)에서 잘 같은 파일로드, 문제가 하나 더 적은 열을 가진 약 라인을보고하지 않을 수 있음을

Errors: 
Line:2243530, Too few columns: expected 5 column(s) but got 3 column(s) 
Too many errors encountered. Limit is: 0. 
Job ID: job_6464fc24a4414ae285d1334de924f12d 
Start Time: 9:38am, 7 Aug 2012 
End Time: 9:38am, 7 Aug 2012 
Destination Table: 387047224813:pos_dw_api.test 
Source URI: uploaded file 
Schema: 
    tbId: INTEGER 
    hdId: INTEGER 
    vtId: STRING 
    prId: INTEGER 
    pff: INTEGER 

참고 : 내가 오류는 다음과 CloudStorage에서도 실패 할 것이므로 모든 행의 형식이 올바른지 확인했습니다.

다음 작업은 동일한 문제가 있지만 유일한 차이점은 테이블 이름과 스키마의 필드 이름이 다르다는 것입니다 (그러나 데이터 파일, 필드 및 유형은 동일 함).

Line:4288253, Too few columns: expected 5 column(s) but got 4 column(s) 

작업이 다음과 같습니다 :

{'status': '503', 'content-length': '177', 'expires': 'Fri, 01 Jan 1990 00:00:00 GMT', 'server': 'HTTP Upload Server Built on Jul 27 2012 15:58:36 (1343429916)', 'pragma': 'no-cache', 'cache-control': 'no-cache, no-store, must-revalidate', 'date': 'Tue, 07 Aug 2012 08:36:40 GMT', 'content-type': 'application/json'} 

{ 
"error": { 
    "errors": [ 
    { 
    "domain": "global", 
    "reason": "backendError", 
    "message": "Backend Error" 
    } 
    ], 
    "code": 503, 
    "message": "Backend Error" 
} 
} 

이를 :

job_cbe54015b5304785b874baafd9c7e82e load  FAILURE 07 Aug 08:45:23 0:00:34 
job_f634cbb0a26f4404b6d7b442b9fca39c load  FAILURE 06 Aug 16:35:28 0:00:30 
job_346fdf250ae44b618633ad505d793fd1 load  FAILURE 06 Aug 16:30:13 0:00:34 

파이썬 스크립트를 반환하는 오류는 다음과 같다 그 시도에서는 문제에서 다른 행을 주장 BigQuery에 문제가있는 것 같습니다. 이 문제를 어떻게 해결할 수 있습니까?

+0

안녕하세요 : 작업이 완료되면 503 오류가 발생하고 실패한 처리 작업 ID를 검사 할 때 "행 : 4288253, 열이 너무 적습니다"라는 메시지가 나타납니다. –

+0

안녕하세요, 마이클, 나는 잠시 후 503을 얻었습니다. 나는 처리 할 수없는 파일의 부분에 도달했을 때를 추측합니다. 콘솔의 작업 내역에서 "줄 XXXXX가 너무 적습니다."에 대한 세부 정보를 얻었습니다. 작업이 실패 할 때까지 작업이 콘솔의 내역에 표시되지 않습니다. –

답변

0

임시 파일이이 가져 오기를 위해 주변에 있었기 때문에 가져 오기를 시도한 파일을 체크 아웃 할 수있었습니다. 작업 job_6464fc24a4414ae285d1334de924f12d를 들어, 마지막 줄은 있었다 : 우리가 어떤 시점에서 입력 파일의 일부를 떨어처럼

222,320828,bot,2,0 
222,320829,bot,4,3 
222,320829, 

것 같습니다 ... 입력 사양은 MD5 해시 58eb7c2954ddfa96d109fa1c60663293해야하지만 데이터의 우리의 해시가 말한다 297f958bcf94959eae49bee32cc3acdc이고 파일 크기는 98921024 여야하지만 83886080 바이트 만 있습니다.

이 문제가 발생하는 이유를 살펴 보겠습니다. 그 동안에 수입은 Google Storage이지만 훨씬 간단한 경로를 사용하므로 문제가 없습니다.

+0

고마워요 요르단. 테스트를 위해 방금 큰 파일을 업로드하려고 시도하여 (job_c60decc9ff414a96aecf5367c7c60eb1 참조) 새 테이블 "387047224813 : pos_dw_api.test2"에 성공적으로 업로드했는데 실패했습니다. 작업은 job_58d11425bafa4318844d8fb2c1d92c75입니다. 그래서이 상황은 최근의 발전으로 보입니다. 문제가 내 문제일까요? 소켓이 너무 일찍 닫히거나 닫히는 경우 통신 문제 일 수 있습니까? –

+0

최신 릴리스 (오늘 오후 현재)에서이 문제를 다시 잡을 수 있는지 확인하기위한 추가 검사가 있습니다. 시도해보고 알려줄 수 있습니까? 감사합니다 –

+0

고마워 요르단. 문제없이 동일한 파일을로드 할 수있었습니다 (job_f15fe9fd42034349b944deb4590647b7).나는 최근에 실패한 다른 큰 파일을 시도했지만, 몇 주 전에 다시 작업 했으므로 (job_44107a7c41c04f8f94f0917df734b6ed) 문제가 해결 된 것으로 보입니다. 감사 –

관련 문제