2012-03-11 2 views
0

새로운 할당 구조체 (또는 클래스)의 벡터 내부에서 데이터의 다중 역 참조에 대한 성능 차이를 탐색하고 싶습니다. 나는 자주이 예를 들어 나는 많은 반복자 derefencing를 통해 참조의 지역성을 강화하고자 내가 벡터를 반복 코드의 부분에서 std :: 포인터의 컨테이너에 정렬

struct Foo 
{ 
    int val; 
    // some variables 
} 

std::vector<Foo*> vectorOfFoo; 

// Foo objects are new-ed and pushed in vectorOfFoo 
for (int i=0; i<N; i++) 
{ 
    Foo *f = new Foo; 
    vectorOfFoo.push_back(f); 
} 

은 이중 중첩 루프를 수행하는

for (vector<Foo*>::iterator iter1 = vectorOfFoo.begin(); iter!=vectorOfFoo.end(); ++iter1) 
{ 
    int somevalue = (*iter)->value; 

} 

분명히 vectorOfFoo 내부의 포인터가 아주 멀리 떨어져 있다면, 나는 참조의 지역성이 다소 상실되었다고 생각합니다.

반복 전에 벡터를 정렬하기 전에 성능이 어떻습니까? 반복되는 역 참조에서 더 나은 성능을 제공해야합니까?

연속적인 '새'가 메모리 레이아웃에서 가까운 포인터를 할당한다는 것을 확신합니까?

+3

죄송하지만 다시 질문이 무엇입니까? 프로필 작성 했습니까? –

+0

반복 할 메모리 레이아웃에서 연속적인 포인터 배열을 갖는 것이 일반적으로 더 좋은지 알고 싶습니다. – linello

+0

포인터는 반드시 메모리에서 연속적이어야합니다. 벡터에 의해 보장됩니다. –

답변

2

마지막 질문에 대답하기 만하면됩니다. 아니요. 새로운 곳에서는 어디에서 할당할지 보장 할 수 없습니다. 할당은 메모리 전체에 분산 될 수 있습니다. 메모리의 현재 조각화에 따라 때때로 서로 가깝지만 보장이 주어지지 않았거나 실제로 주어질 수 있다는 것은 운이 좋을 수 있습니다.

+0

그래서이 경우 정렬이 유용하지 않다고 말합니까? 새롭게 메모리를 할당하기로 결정한 것은 운의 문제 일뿐입니다. 사실 몇 가지 실험에서 나는 명확한 행동을 찾지 못했습니다. – linello

+0

표준은 확실히'operator new()'에 대한 다른 호출에서 할당 된 메모리의 상대 위치에 대한 요구 사항을 만들지 않습니다. 실질적으로 그것은 대개 충분히 크지 만 너무 크지 않은 fre 목록에서 찾은 첫 번째 청크를 반환합니다. 최소한의 C++ 2011에서는 사용자 정의 할당자를 생성하고이를 사용하여보다 잘 제어 할 수 있습니다. –

1

많은 요인에 따라 다릅니다.

먼저 벡터에서 가리키는 개체가 할당 된 방법에 따라 다릅니다. 다른 페이지에 할당 된 경우 할당 부분을 수정하거나 소프트웨어 프리 페칭을 사용하려고 시도 할 수 없습니다.

일반적으로 malloc이 제공하는 가상 주소를 확인할 수 있지만 큰 프로그램의 일부로 별도의 할당 결과가 결정적이지 않습니다. 따라서 할당을 제어하려면 더 스마트하게해야합니다.

NUMA 시스템의 경우, 액세스중인 메모리가 프로세스가 실행중인 노드의 실제 메모리에서 할당되었는지 확인해야합니다. 그렇지 않으면, 당신이 무엇을 하든지 상관없이, 메모리는 다른 노드로부터오고 당신은 그 노드를 다시 프로그램하는 것을 제외하고는 많은 일을 할 수 없습니다.

한 개체에서 다른 개체로 이동하려면 필요한 보폭을 확인해야합니다. Pre-fetcher는 512 바이트 윈도우 내에서 스트라이드를 인식 할 수 있습니다. 보폭이 더 크다면 프리 페처 관점에서 랜덤 메모리 액세스에 대해 이야기하고있는 것입니다. 그런 다음 캐시에서 데이터를 제거하지 않도록 차단하고 소프트웨어 프리 페칭을 시도하고 사용할 수 있습니다. 도움이 될 수도 있고 도움이되지 않을 수도 있습니다 (항상 테스트 해보십시오).

포인터의 벡터를 정렬하면 상대적으로 작은 보폭으로 연속적으로 포인터가 가리키는 객체가 만들어집니다. 그렇다면 프리 페치 하드웨어에보다 친숙하게 만들어 메모리 액세스 속도를 향상시킬 수 있습니다.

벡터를 정렬해도 이득/손실 비율이 떨어지지 않도록해야합니다.

각 요소를 사용하는 방법에 따라 한 번에 모든 요소를 ​​할당하거나 더 작은 다른 구조로 해당 개체를 분할하고 작은 데이터 청크를 반복 할 수 있습니다.

어쨌든 변경 전과 후에 전체 응용 프로그램의 성능을 반드시 측정해야합니다.이러한 종류의 최적화는 까다로운 비즈니스이며 이론적으로 성능이 향상되어야하지만 상황이 악화 될 수 있습니다. 메모리 액세스 프로파일 링에 사용할 수있는 많은 도구가 있습니다. 예를 들어, cachegrind. Intel의 VTune도 마찬가지입니다. 그리고 다른 많은 도구. 추측하지 말고 결과를 실험하고 검증하십시오.

2

개체에 대한 참조 지역을 개선하려면 풀 할당을 조사해야합니다.

하지만 프로파일 링이 없으면 무의미합니다.

관련 문제