2014-11-20 2 views
0

나는 scaling에서 ctrl-delimited 파일을 읽으려고합니다. 잘못된 번호의 필드 (166 개가 발견되고 142 개가 있음)를 찾은 다음 오류가 발생한 행이 표시된다는 오류가 나타납니다. 어떤 이유로 파일의 3 분의 1에서 분리 문자를 읽지 않습니다.scaling에서 ctrl로 구분 기호 읽기

Csv(args("input"), separator = "\u0001", fields = schema) 
    .read 
    .groupBy('var2){group => group.sum[Long]('var3)} 
    .write(Tsv(args("output"))) 

나는 어쩌면 내가 잘못/부적절 CSV 기능을 사용하고 있으므로 끓는에 새로 온 사람 : 여기에 내가 사용하고있는 코드입니다. 일어날 수도있는 whhy에 대한 아이디어가 있습니까?

답변

0

오류가있는 줄을보고 해당 필드 값에 포함 된 제어 문자가 있는지 확인하는 것이 좋습니다. 나는이 (시작 표제 !!) 제어 문자로 구분 된 파일을 빨리 읽었으며 잘 읽었습니다. 가능하면 샘플 데이터를 제공 할 수 있도록 데이터를 살펴 보시기 바랍니다.

+0

유권자가 어떤 이유인지 알 수 있도록 잘못을 이해할 수 있습니까? 통제 - 시작/시작 (soh)이 동일하지 않습니까? http://www.fileformat.info/info/unicode/char/0001/index.htm http://unicodelookup.com/#ctrl – technotring