거대한 # 텍스트 파일 (100MB에서 1GB까지)에 대해 작업 중이며,이를 분석하여 particoular 데이터를 추출해야합니다. 성가신 일은 파일에 명확하게 구분 된 구분 기호가 없다는 것입니다. 예를 들어sed로 지저분한 로그를 파싱하는 불확실한 구분자
: 나는에 의해 제한 문자열의 공백을 삭제해야
"element" 123124 16758 "12.4" "element" "element with white spaces inside" "element"
"외부 따옴표 (그렇지 않으면 몇 가지 숫자를"(따옴표)는, 문제는 내가 공백 삭제되지해야한다는 것입니다 " 괜찮은 해결책을 찾을 수 없습니까? 누군가가 이것을 도와 줄 수 있습니까?
그게 내 문제를 해결했습니다. 마지막 요청 일 뿐이에요, 코드를 설명해 주시겠습니까? 필드 구분 기호로 큰 따옴표를 설정하여 대단히 감사합니다 (awk에 익숙하지 않음) – Abaco
따옴표 안에있는 단어는 짝수 필드 번호를 갖습니다. 따라서'i' 카운터는 2 씩 증가합니다.'gsub()'는 모든 공백을 null로 대체합니다. Pls는 gawk 매뉴얼 (검색 GNU awk)을 더 많은 정보 – ghostdog74
+1 매우 똑똑한 해결책을 읽습니다. –