거대한 탭으로 구분 된 파일이 있습니다. (10,000 개의 피검자는 줄로, 그리고 100 만 이상의 분석자는 란으로). 1 백만 개의 각 열과 관련된 정보가있는 매핑 파일이 있습니다. 필자는 모든 분석에 대해 (모든 셀에 대해) 매핑 파일을 조사하고 그 값을 얻고 기존 값을 대체해야합니다.병렬 처리가 가능합니까?
파이썬이나 펄에서는 모든 행을 읽고, 분할하고 각 셀을 매핑 파일에서 조회해야합니다.
R에서는 한 번에 각 열을 읽을 수 있으며 모든 행에 대해 매핑 파일에서 정보를 얻을 수 있습니다.
어느 쪽이든, 모든 행 또는 열을 반복하는 모든 과정은 모든 셀 검색이 완료 될 때까지 많은 시간이 소요됩니다.
내가 이것을 병렬화 할 수있는 방법이 있습니까 ?? 내가 이것을 병렬화하고 더 빨리 진행하고 싶다면 어떻게 생각해야합니까?
또한이 방법으로 맵/스타일을 줄이는 방법을 배우는 데 관심이 있습니까? 다음과 같이
샘플 데이터 파일은 다음과 같습니다 (탭 - 구분)
ID S1 S2 S3 S4 S5
1 AA AB BA BB AB
2 BA BB AB AA AA
3 BA AB AB AB AB
4 BA AB AB BB AA
5 AA AB BA BB AB
6 AA BB AB AA AA
매핑 파일은 다음과 같습니다 : 데이터 파일에 따라서
SID Al_A Al_B
S1 A C
S2 G T
S3 C A
S4 G T
S5 A C
, 모든 세포의 모든 A의, 그리고 B에서는 매핑 파일에서 A가 매핑되는 대상 (Al_A 열에서)과 B가 매핑되는 대상 (Al_B 열에서)을 확인하기 위해 조회가 수행되어야합니다.
매핑 파일을 설명해 주시겠습니까? – ikegami
작은 조각의 데이터 (몇 개의 행과 몇 개의 열, 분석 항목)와 스 니펫에 대한 관련 매핑 파일/데이터를 제공하여 이야기하는 것을 볼 수 있습니까? R은 벡터화되었으므로 각 열에 대해 병합 또는 인덱스 기반 바꾸기를 사용하여 병렬 방식으로 단일 열을 처리 할 수 있습니다. –
R에서는 별도의 코어에서 개별 열을 읽을 수 있습니다. 나는 이것이 실제로 어떤 속도를 제공 할 것인지 여부를 테스트하지 않고 판단 할 수 없습니다. –