열 1에 다른 값이있는 것처럼 많은 파일을 원하지는 않지만 비슷한 질문을 신중히 인용합니다. here 예를 들어, from :대용량 파일을 첫 번째 열 값을 기준으로 일련 번호가 지정된 파일로 분할합니다.
A.B|100|20
A.B|101|20
A.X|101|30
A.X|1000|20
B.Y|1|1
B.Y|1|2
각 파일에 최대 5 줄까지 포함 된 x 파일로 분할하고 싶습니다. 예에서, 내가이 개 파일을 원하는 것 :
A.B|100|20
A.B|101|20
A.X|101|30
A.X|1000|20
및
B.Y|1|1
B.Y|1|2
된 awk -F를 \ | '{print> $ 1}'file1
이 예제의 경우 2 단계로 쉽게 목표를 달성 할 수 있습니다. 내 실제 파일의 경우, 첫 번째 열에 약 200Gig의 큰 파일과 10 백만 개의 고유 값을 분할하려고합니다. 각 파일에 약 1,000,000 개의 줄 (예 : 유연한 임계 값)이 있어야합니다. 내가 수백만 개의 파일을 생성 할 여력이 없어서 2 단계로 작성하는 것은 불가능합니다. 어떤 생각?
이중 스캐닝
글쎄, 1 천만 개의 고유 한 "키"와 파일 당 최대 5 줄을 사용하면 결국 최대 2 백만 파일. 어쩌면 우리가해야 할 일을 오래 전에 끝내면, 어떻게해야 하는지를 도울 수 있습니다. –
불분명 함, 최대 5 줄 *을 포함하는 파일을 작성했지만 frst 출력에는 4 줄이 포함되어 있습니다. 그런 다음, * 수백만 개의 파일을 생성 할 여력이 없지만 동시에 큰 파일을 분할하려고합니다. 일관성없는 소리 – RomanPerekhrest
혼란을 가져 주어서 죄송합니다. 나는 나의 질문을 다시 편집했다. – Sara