MPI 라이브러리 (MPICH-2)를 사용하는 프로그램을 작성했습니다. 프로그램은 2와 N 사이의 모든 소수를 찾습니다. 두 프로세스 만 사용하면 잘 작동하지만 프로세스> 2의 수를 지정하면 작동하지 않습니다. 내 목표는 MPI를 사용하는 프로그램과 그렇지 않은 프로그램 사이의 퍼포먼스를 비교하는 것이므로 매우 비효율적입니다. 듀얼 코어 머신이 있고 우분투 13.10에서 NetBeans 7.4를 사용하고 있습니다. 문제는 내 컴퓨터의 코어 수에 따라 좌우됩니까? 나는 스케줄링이 OS에 달려 있다는 것을 알았지 만, 어떻게 생각해야할지 모르겠다! 어쩌면 MPI_Barrier를 넣을 수 있을까요? 나는 2 개 이상의 procs로 프로그램을 호출 할 때 이상한 0을 볼 수 있으므로 코드와 출력을 아래에 삽입한다.MPI : 프로세스 수에 따라 프로그램이 작동합니다.
#include <stdio.h>
#include <stdlib.h>
#include <mpi.h>
int count(int *a, int N){
int b[N];
int i, j, n_prime;
for(i=0; i<N; i++)
b[i] = a[i];
b[0] = b[1] = 0;
for (i=2; i<N; i++) {
b[i] = 1;
for (j=2; j<i; j++)
if (i % j == 0) {
b[i] = 0;
break;
}
}
n_prime = 0;
for (j=2; j<N; j++)
if (b[j]) n_prime++;
return n_prime;
}
int main(int argc, char** argv) {
int size, rank, div;
int N;
int *array;
int i, j, k, check, n_prime, n_prime_loc;
int *sub_array, *prime, *recv_prime, *b, *prime2;
double t1, t2;
if(argc != 2){
printf("Argument error: %s not recognized as argument\n", argv[0]);
return -1;
}
N = atoi(argv[1]);
MPI_Init(NULL, NULL);
t1 = MPI_Wtime();
MPI_Comm_size(MPI_COMM_WORLD, &size);
MPI_Comm_rank(MPI_COMM_WORLD, &rank);
div = N/size; //elements per process
b = (int*) malloc(sizeof(int)*N);
if (b == NULL){
printf("Cannot allocate array 'b'\n");
return -1;
}
n_prime = count(b, N);
/* Dynamic allocation of the arrays */
sub_array = (int*) malloc(sizeof(int)*div);
if (sub_array == NULL){
printf("Cannot allocate array 'sub_array'\n");
return -1;
}
recv_prime = (int*) malloc(sizeof(int)*n_prime);
if (recv_prime == NULL){
printf("Cannot allocate array 'recv_prime'\n");
return -1;
}
array = (int*) malloc(sizeof(int)*N);
if (array == NULL){
printf("Cannot allocate array 'array'\n");
return -1;
}
prime = (int*) malloc(sizeof(int)*n_prime);
if (prime == NULL){
printf("Cannot allocate array 'prime'\n");
return -1;
}
/* Initialization of the array */
for (i=0; i<N; i++)
array[i] = i+1;
for(i=0; i<n_prime; i++)
prime[i] = 0;
for(i=0; i<n_prime; i++)
recv_prime[i] = 0;
/* Process 0 divides the array among the processes */
MPI_Scatter(array, div, MPI_INT, sub_array, div, MPI_INT, 0, MPI_COMM_WORLD);
check = 0; //used to check if we find a divisor
k=0;
for(i=0; i<div; i++){
check = 0;
if (sub_array[i] == 1) continue;
for(j=2; j<sub_array[i]; j++){
if(sub_array[i] % j == 0){
check = 1;
}
}
if (check == 0){ //if we don't find a divisor, the number is prime
prime[k] = sub_array[i];
k++;
}
}
n_prime_loc = 0;
for(i=0; i<n_prime; i++)
if(prime[i]!=0)
n_prime_loc++;
prime2 = (int*) malloc(sizeof(int)*n_prime_loc);
j=0;
for(i=0; i<n_prime; i++){
if(prime[i]==0) continue;
prime2[j] = prime[j];
j++;
}
/* Each process sends its computation to the root process */
MPI_Gather(prime2, n_prime_loc, MPI_INT, recv_prime, n_prime_loc, MPI_INT, 0, MPI_COMM_WORLD);
MPI_Barrier(MPI_COMM_WORLD);
if(rank == 0){
printf("Prime numbers: ");
for(i=0; i<n_prime; i++)
printf("%i ", recv_prime[i]);
printf("\n");
}
/* Free the allocated arrays */
free(b);
free(array);
free(recv_prime);
free(prime);
free(prime2);
free(sub_array);
t2 = MPI_Wtime();
//printf("Computation time for Process %i: %f\n", rank, t2-t1);
MPI_Finalize();
return (EXIT_SUCCESS);
}
출력은 다음과 같습니다
[email protected]:~/NetBeansProjects/Prime$ mpiexec -np 10 ./Prime 1000
Prime numbers: 2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89 97
101 103 107 109 113 127 131 137 139 149 151 157 163 167 173 179 181 191 193 197 199
0 0 0 0 211 223 227 229 233 239 241 251 257 263 269 271 277 281 283 293 307 311 313
317 331 337 347 349 353 359 367 373 379 383 389 397 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 401 409 419 421 431 433 439 443 449 457 461 463 467 479 487 491 499 503 509 521
523 541 547 557 563 569 571 577 587 593 599 450 451 452 601 607 613 617 619 631 641
643 647 653 659 661 673 677 683 691 701 709 719 727 733 739 743 751 757 761 769 773
787 797 649 650 485 486
[email protected]:~/NetBeansProjects/Prime$ mpiexec -np 2 ./Prime 1000
Prime numbers: 2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89 97
101 103 107 109 113 127 131 137 139 149 151 157 163 167 173 179 181 191 193 197 199
211 223 227 229 233 239 241 251 257 263 269 271 277 281 283 293 307 311 313 317 331
337 347 349 353 359 367 373 379 383 389 397 401 409 419 421 431 433 439 443 449 457
461 463 467 479 487 491 499 503 509 521 523 541 547 557 563 569 571 577 587 593 599
601 607 613 617 619 631 641 643 647 653 659 661 673 677 683 691 701 709 719 727 733
739 743 751 757 761 769 773 787 797 809 811 821 823 827 829 839 853 857 859 863 877
881 883 887 907 911 919 929 937 941 947 953 967 971 977 983 991 997
감사합니다. 첫 번째 요점은 이미이 문제가 있음을 알고 있으며 MPI_SCATTERV를 사용해보아야합니다. 문제를 해결하는 것 같습니다. 세 번째 요점으로 MPI_BARRIER 사용에 대한 용의자를 확인했습니다. 두 번째 요점은 내 프로그램의 실제 문제가 무엇인지 명확하게 밝힙니다. 그래서 당신은 너무 많은 자원을 소비하는 것을 피하기 위해 최대 2 개의 프로세스를 사용하도록 제안하고 있습니까? 두 번째 질문은 MPI_GATHER를 사용하여 MPI_PROBE (제안한대로)를 사용하면 어떨까요? – damaar
1.예, 코어가 두 개인 경우 2 개 이상의 MPI 등급을 사용하면 도움이되지 않습니다. –
2.'MPI_PROBE'는'MPI_RECV'에서만 작동합니다. 집단 작업에서는 작동하지 않습니다. 더 자세한 정보는 문서 (http://www.mcs.anl.gov/research/projects/mpi/www/www3/MPI_Probe.html)를보십시오. –