9 열 (구분 기호로 "|")이있는 호출 정보 레코드 (CDR)의 큰 파일 (3 * 10^7 행)이 있습니다. 각 행은 다음 속성을 가진 통신 인스턴스입니다.사용자가 대용량 파일 분할
Date|Time|Duration|Caller|Receiver|serviceType|junk|cellReceiver|cellCaller|CallerLAC
이 파일을 사용자별로 작은 덩어리로 분할해야합니다. 따라서 각 파일은 사용자가 발신자인지 수신자인지에 관계없이 사용자가 모든 통신을합니다 (즉 A가 B를 호출하면이 행은 두 파일, 사용자 A의 파일 및 사용자 B의 파일에 나타납니다).
이 작업을 효율적으로 수행하는 가장 좋은 방법은 무엇입니까? (OS X Yosemite를 사용하고 있습니다).
특정 언어/플랫폼은 무엇입니까? – Anonymous
터미널 (MAC) 또는 Python을 사용하는 것이 바람직합니다. 나는 이것을 포함하도록 질문을 편집 할 것이다. – amaatouq
csv 모듈을 사용하여 파일을 반복하는 등 시스템에서 간단한 해결책이 얼마나 느린 지 확인하십시오. (cdr_user_A.txt & cdr_user_B.txt) –