2014-04-24 3 views
0

부동 소수점 정밀도 문제로 인해 일부가 잘린 64 비트 정수 열이 포함 된 CSV 파일이 있습니다.손상된 테이블 형식 데이터

여기에 때때로 나머지 zero'd되어,

id      name 
----------------------------- 
387028281378205 'GSS Glasgow' 
387028281378205 'GSS Glasgow' 
387028281378205 'GSS Glasgow' 
387028281378205 'GSS Glasgow' 
387028281378205 'GSS Glasgow' 
387028281378205 'GSS Glasgow' 
387028000000000 'GSS Glasgow' 
387028000000000 'GSS Glasgow' 

처음 6 개 자리는 그러나 항상 올바른 예입니다.

두 번째 열은 올바른 ID와 잘못된 ID에 대해 항상 동일합니다.

올바른 ID가 잘못된 ID보다 먼저 구문 분석된다는 보장이 없으므로이 문제를 해결하는 방법을 생각하는 데 어려움이 있습니다. 나는 정말로 약간의 아이디어에 감사 할 것입니다.

600 개의 '이름'이있는 6000 개의 행이 있습니다. 나는 이것을 파이썬, 펄, PHP로 프로그래밍 할 수있다. 단지 방탄 법을 찾아야한다.

답변

1
  1. 모든 줄을 목록으로 읽어보십시오.
  2. 목록을 그룹화 name.
  3. 모든 그룹에서 올바른 id을 찾고 해당 그룹의 모든 손상된 id을 수정합니다.
  4. 목록을 저장하십시오.
관련 문제