미국 국세 조사에서 배포 한 대도시 지역 데이터의 연간 건축 허가 (고정 너비 서식 텍스트 파일로 downloadable here)를 사용해야합니다.고정 너비 서식 데이터를 열 너비를 초과하는 항목으로 읽음
999 10180 Abilene, TX 306 298 8 0 0 0
184 10420 Akron, OH 909 905 0 4 0 0
999 13980 Blacksburg-Christiansburg-Radford,
VA 543 455 0 4 84 3
145 14010 Bloomington, IL 342 214 4 0 124 7
160 15380 Buffalo-Cheektowaga-Niagara Falls,*
NY 1964 931 14 14 1005 68
268 15500 Burlington, NC 1353 938 12 16 387 20
위에서 보는 바와 같이 다음은 파일의 발췌 한 것입니다 (그들이 좋은 형식이 아닌 및 날짜 프레임에 파일을 읽은 후 교체 할 수있는 나는 열 이름을 제거했습니다) 발췌, 이름 열의 항목 중 많은 수가 열의 너비를 초과합니다 (36 자 여야합니다). 필자는 utils 패키지와 readr의 다양한 fwf 읽기 기능을 실험했지만 이러한 항목을 고려한 솔루션을 찾을 수 없습니다. 모든 팁을 많이 주시면 감사하겠습니다.
편집 : 원래의 파일 포맷을 발췌하기위한 모드로와 제 3 컬럼 폭을 초과 한 예 항목이 삭제 된 방법으로 편집 하였다. 나는 그 이후에 그들을 다시 포함하고 열 이름을 제거하기 위해 발췌 부분을 업데이트했다.
이 편집 전에 제출 된 @markdly 코드는이 문제가없는 모든 항목에서 작동합니다. 나는 CSV로 결과를 수출, 아래 발췌 한이 항목이 어떻게되는지 보여주기 위해 포함 :
"38","999",NA,"13980",NA,"Blacksburg-Christiansburg-Radford,",NA,NA,NA,NA,NA,NA
"39","V","A",NA,NA,NA,"543",455,0,4,84,3
"40","145",NA,"14010",NA,"Bloomington, IL","342",214,4,0,124,7
"51","160",NA,"15380",NA,"Buffalo-Cheektowaga-Niagara Falls,*",NA,NA,NA,NA,NA,NA
"52","N","Y",NA,NA,NA,"1964",931,14,14,1005,68
"53","268",NA,"15500",NA,"Burlington, NC","1353",938,12,16,387,20
편집 2 : 주요 대도시의 대부분 실제로 돈 찾고 있어요 ' 이 문제 범주에 속하지 않으므로 수행 할 수있는 솔루션이 없다면 데이터 세트에서 이러한 항목을 제거하는 방법이 있습니까?
나는 약간이 편집 한 . – thelatemail