2011-08-06 8 views
4

NVIDIA Fermi 아키텍처 (cuda의 doc 폴더에있는 Compute_profiler.txt 파일)의 성능 카운터 이름을 살펴보면 L2 캐시 실패의 경우 2 개의 성능 카운터 인 l2_subp0_read_sector_misses 및 l2_subp1_read_sector_misses. 그들은 L2의 두 조각을위한 것이라고 말했다.NVIDIA의 L2 캐시 Fermi

두 개의 L2 조각이있는 이유는 무엇입니까? 스트리밍 멀티 프로세서 아키텍처와 관련이 있습니까? 이 부문이 성과에 미치는 영향은 무엇입니까?

감사

답변

1

내가 스트리밍 멀티 프로세서와 직접적인 관계가 있다고 생각하지 않습니다.

저는 슬라이스가 뱅크 메모리와 같다고 생각합니다.

"총"L2 읽기 누락을 얻으려면 두 값을 합칩니다.

1

CUDA C 프로그래밍 안내서는 멀티 프로세서의 아키텍처에 대해 설명합니다. 이 문서에는 각 페르미 멀티 프로세서에 2 개의 워프 스케줄러가 있다고 나와 있습니다. 나는 L2 캐시가 동시 캐싱을 허용하도록 분할되어 있다고 가정합니다.

케플러 아키텍처에 대한 L2 읽기 누락을 보지 않았지만 케플러 멀티 프로세서에는 4 개의 워프 프로세서가 있습니다. 따라서 Kepler 컴파일에 대해 4 개의 성능 카운터가보고되면이 가정을 확인할 수 있습니다.

+0

나는 그 생각을 좋아한다. 이것이 확인되면 계속 볼 것입니다. – Zk1001

관련 문제