2014-02-08 3 views
4

마지막 레벨 캐시의 캐시 요청 번호를 모니터링하고 싶습니다. 나는 튜토리얼 here을 기반으로 그 정보를 얻기 위해 리눅스 모듈을 썼다.Linux 모듈 : 성능 카운터가 작동하지 않습니다.

컴파일 할 수 있지만 출력 결과는 항상 0입니다. 즉, rdmsr을 사용하면 항상 edx = 0, eax = 0이됩니다. 심지어는 tutorial에서 데모 코드를 시도했지만 출력은 여전히 ​​0입니다.

나는이 문제를 일주일 동안 계속 고수하고 있습니다. 누군가 내가 프로그램에서 만든 실수를 지적하도록 도울 수 있습니까?

동일한 기존 프로그램이 있다는 것을 알고 있었지만 Xen 하이퍼 바이저에서 캐시 요청을 모니터링하기 위해 코드를 직접 작성하는 방법을 알고 있어야합니다. Xen의 하이퍼 바이저에 도구를 통합하지 않으면 Xen에서 이러한 도구를 사용할 수 없습니다.

/* 
* Record the cache miss rate of Intel Sandybridge cpu 
* To confirm the event is correctly set! 
*/ 
#include <linux/module.h> /* Needed by all modules */ 
#include <linux/kernel.h> /* Needed for KERN_INFO */ 

/*4 Performance Counters Selector for %ecx in insn wrmsr*/ 
#define PERFEVTSEL0 0x186 
#define PERFEVTSEL1 0x187 
#define PERFEVTSEL2 0x188 
#define PERFEVTSEL3 0x189 

/*4 MSR Performance Counter for the above selector*/ 
#define PMC0 0xc1 
#define PMC1 0xc2 
#define PMC2 0xc2 
#define PMC3 0xc3 

/*Intel Software Developer Manual Page 2549*/ /*L1I L1D cache events has not been confirmed!*/ 
/*L1 Instruction Cache Performance Tuning Events*/ 
#define L1I_ALLHIT_EVENT 0x80 
#define L1I_ALLHIT_MASK  0x01 
#define L1I_ALLMISS_EVENT 0x80 /*confirmed*/ 
#define L1I_ALLMISS_MASK 0x02 /*confirmed*/ 

/*L1 Data Cache Performance Tuning Events*/ 
/*Intel does not have the ALLREQ Miss mask; have to add LD_miss and ST_miss*/ 
#define L1D_ALLREQ_EVENT 0x43 
#define L1D_ALLREQ_MASK  0x01 
#define L1D_LDMISS_EVENT 0x40 
#define L1D_LDMISS_MASK  0x01 
#define L1D_STMISS_EVENT 0x28 
#define L1D_STMISS_MASK  0x01 

/*L2 private cache for each core*/ /*confirmed*/ 
#define L2_ALLREQ_EVENT  0x24 
#define L2_ALLREQ_MASK  L2_ALLCODEREQ_MASK /*0xFF*/ 
#define L2_ALLMISS_EVENT 0x24 
#define L2_ALLMISS_MASK  L2_ALLCODEMISS_MASK /*0xAA*/ 

#define L2_ALLCODEREQ_MASK 0x30 
#define L2_ALLCODEMISS_MASK 0x20 

/*L3 shared cache*/ /*confirmed*/ 
/*Use the last level cache event and mask*/ 
#define L3_ALLREQ_EVENT  0x2E 
#define L3_ALLREQ_MASK  0x4F 
#define L3_ALLMISS_EVENT 0x2E 
#define L3_ALLMISS_MASK  0x41 

#define USR_BIT    (0x01UL << 16) 
#define OS_BIT    (0x01UL << 17) 


#define SET_MSR_USR_BIT(eax) eax |= USR_BIT 
#define CLEAR_MSR_USR_BIT(exa) eax &= (~USR_BIT) 
#define SET_MSR_OS_BIT(eax)  eax |= OS_BIT 
#define CLEAR_MSR_OS_BIT(eax) eax &= (~OS_BIT) 

#define SET_EVENT_MASK(eax, event, umask) eax |= (event | (umask << 8)) 

/*MSR EN flag: when set start the counter!*/ 
//#define MSR_ENFLAG  (0x1<<22) 
#define MSR_ENFLAG  (0x1<<22) 


/* 32bit insn v3*/ 
static inline void rtxen_write_msr(uint32_t eax, uint32_t ecx) 
{ 
    /*clear counter first*/ 
    __asm__ __volatile__ ("movl %0, %%ecx\n\t" 
     "xorl %%edx, %%edx\n\t" 
     "xorl %%eax, %%eax\n\t" 
     "wrmsr\n\t" 
     : /* no outputs */ 
     : "m" (ecx) 
     : "eax", "ecx", "edx" /* all clobbered */); 

    eax |= MSR_ENFLAG; 

    __asm__("movl %0, %%ecx\n\t" /* ecx contains the number of the MSR to set */ 
     "xorl %%edx, %%edx\n\t"/* edx contains the high bits to set the MSR to */ 
     "movl %1, %%eax\n\t" /* eax contains the log bits to set the MSR to */ 
     "wrmsr\n\t" 
     : /* no outputs */ 
     : "m" (ecx), "m" (eax) 
     : "eax", "ecx", "edx" /* clobbered */); 
} 

static inline void rtxen_read_msr(uint32_t* ecx, uint32_t *eax, uint32_t* edx) 
{ __asm__ __volatile__(\ 
     "rdmsr"\ 
     :"=d" (*edx), "=a" (*eax)\ 
     :"c"(*ecx) 
     ); 
} 

static inline void delay(void) 
{ 
    char tmp[1000]; 
    int i; 
    for(i = 0; i < 1000; i++) 
    { 
     tmp[i] = i * 2; 
    } 
} 

enum cache_level 
{ 
    UOPS, 
    L1I, 
    L1D, 
    L2, 
    L3 
}; 

int init_module(void) 
{ 
    enum cache_level op; 
    uint32_t eax, edx, ecx; 
    uint64_t l3_all; 
    op = UOPS; 
    switch(op) 
    { 
    case UOPS: 
     eax = 0x0001010E; 
     eax |= MSR_ENFLAG; 
     ecx = 0x187; 
     printk(KERN_INFO "UOPS Demo: write_msr: eax=%#010x, ecx=%#010x\n", eax, ecx); 
     rtxen_write_msr(eax, ecx); 
     ecx = 0xc2; 
     eax = 1; 
     edx = 2; 
     rtxen_read_msr(&ecx, &eax, &edx); 
     printk(KERN_INFO "UOPS Demo: read_msr: edx=%#010x, eax=%#010x\n", edx, eax); 
     break; 
    case L3: 
     eax = 0; 
     SET_MSR_USR_BIT(eax); 
     SET_MSR_OS_BIT(eax); 
     SET_EVENT_MASK(eax, L3_ALLREQ_EVENT, L3_ALLREQ_MASK); 
     eax |= MSR_ENFLAG; 
     ecx = PERFEVTSEL2; 
     printk(KERN_INFO "before wrmsr: eax=%#010x, ecx=%#010x\n", eax, ecx); 
     rtxen_write_msr(eax, ecx); 
     printk(KERN_INFO "after wrmsr: eax=%#010x, ecx=%#010x\n", eax, ecx); 
     printk(KERN_INFO "L3 all request set MSR PMC2\n"); 
     printk(KERN_INFO "delay by access an array\n"); 
     delay(); 
     ecx = PMC2; 
     eax = 1; 
     edx = 2; 
     printk(KERN_INFO "rdmsr: ecx=%#010x\n", ecx); 
     rtxen_read_msr(&ecx, &eax, &edx); /*need to pass into address!*/ 
     l3_all = (((uint64_t) edx << 32) | eax); 
     printk(KERN_INFO "rdmsr: L3 all request is %llu (%#010lx)\n", l3_all, (unsigned long)l3_all); 
     break; 
    default: 
     printk(KERN_INFO "operation not implemented yet\n"); 
    } 
    /* 
    * A non 0 return means init_module failed; module can't be loaded. 
    */ 
    return 0; 
} 

void cleanup_module(void) 
{ 
    printk(KERN_INFO "Goodbye world 1.\n"); 
} 

내가 가진 결과는 다음과 같습니다

[ 1780.946584] UOPS Demo: write_msr: eax=0x0001010e, ecx=0x00000187 
[ 1780.946590] UOPS Demo: read_msr: edx=0x00000000, eax=0x00000000 
[ 1818.595055] Goodbye world 1. 
[ 1821.153947] UOPS Demo: write_msr: eax=0x0041010e, ecx=0x00000187 
[ 1821.153950] UOPS Demo: read_msr: edx=0x00000000, eax=0x00000000 
+1

당신은 당신이 당신보다 동일한 아키텍처를 사용했습니다 다음은 자습서를 확인하신 후 다음과 같이

스위치 문 올바른 코드는? 다른 방법은 리눅스 내 보낸 시스템 호출을 사용하는 것입니다. perf_event_open http://web.eece.maine.edu/~vweaver/projects/perf_events/perf_event_open.html 사용자 수준 코드 –

+0

@ManuelSelva에서 수행 할 수 있습니다. 매우 감사합니다. 많은 제안을! 나는 인텔 프로그래머 매뉴얼과 나의 기계의 아치를 점검했다. 이벤트 번호와 마스크가 정확해야한다고 생각합니다. 이제 코드 흐름이 올바른지 확실하지 않습니다. 예를 들어 wrmsr을 실행하면 sth을 수행해야합니까? 그밖에? 또한 wrmsr 명령을 실행할 때 eax에 올바른 값을 설정했는지 확실하지 않습니다. – Mike

+0

사실 나는 가상화 하이퍼 바이저에 코드를 넣기 때문에 linux 호출 대신 코드를 작성해야합니다. perf_event_open 함수를 사용하면 많은 의존성을 포함해야합니다. – Mike

답변

5

드디어 @Manuel 셀바의 도움으로 그것을 해결!

perf를 올바르게 설정하는 순서입니다. 카운터는 다음과 같습니다.

1 단계 : msax를 설정하고 eax의 EN 비트를 설정하여 카운터를 활성화합니다.

2 단계 :

3 단계 MSR을 작성하여 카운터를 중지 카운터

나는 2 단계를 놓친 읽기, 그건 항상 나 0을주는 이유가있는 경우 0을보고하는 것이 합리적이다 I 그것을 멈추기 전에 카운터를 읽고 싶습니다.

switch(op) 
    { 
    case UOPS: 
     eax = 0x0051010E; 
     eax |= MSR_ENFLAG; 
     ecx = 0x187; 
     printk(KERN_INFO "UOPS Demo: write_msr: eax=%#010x, ecx=%#010x\n", eax, ecx); 
     rtxen_write_msr(eax, ecx); 
     //stop counting 
     eax = 0x0011010E; 
     rtxen_write_msr(eax,ecx); 
     ecx = 0xc2; 
     eax = 1; 
     edx = 2; 
     rtxen_read_msr(&ecx, &eax, &edx); 
     printk(KERN_INFO "UOPS Demo: read_msr: edx=%#010x, eax=%#010x\n", edx, eax); 
     break; 
    case L3: 
     eax = 0; 
     SET_MSR_USR_BIT(eax); 
     SET_MSR_OS_BIT(eax); 
     SET_EVENT_MASK(eax, L3_ALLREQ_EVENT, L3_ALLREQ_MASK); 
     eax |= MSR_ENFLAG; 
     eax |= (1<<20); //INT bit: counter overflow 
     ecx = PERFEVTSEL2; 
     printk(KERN_INFO "before wrmsr: eax=%#010x, ecx=%#010x\n", eax, ecx); 
     rtxen_write_msr(eax, ecx); 
     printk(KERN_INFO "after wrmsr: eax=%#010x, ecx=%#010x\n", eax, ecx); 
     printk(KERN_INFO "L3 all request set MSR PMC2\n"); 
     printk(KERN_INFO "delay by access an array\n"); 
     delay(); 
     eax &= (~MSR_ENFLAG); 
     rtxen_write_msr(eax, ecx); 
     printk(KERN_INFO "stop the counter, eax=%#010x\n", eax); 
     ecx = PMC2; 
     eax = 1; 
     edx = 2; 
     printk(KERN_INFO "rdmsr: ecx=%#010x\n", ecx); 
     rtxen_read_msr(&ecx, &eax, &edx); /*need to pass into address!*/ 
     l3_all = (((uint64_t) edx << 32) | eax); 
     printk(KERN_INFO "rdmsr: L3 all request is %llu (%#010lx)\n", l3_all, (unsigned long)l3_all); 
     break; 
    default: 
     printk(KERN_INFO "operation not implemented yet\n"); 
    } 
관련 문제