2008-11-07 2 views
6

프로파일 링을 통해 나는 여기에 sprintf가 오랜 시간이 걸린다는 것을 발견했습니다. y/m/d h/m/s 필드에서 맨 앞의 0을 처리하는 더 나은 성능의 대안이 있습니까?성능 핫스팟으로 측정 한 sprintf를 어떻게 개선하고 바꿀 수 있습니까?

SYSTEMTIME sysTime; 
GetLocalTime(&sysTime); 
char buf[80]; 
for (int i = 0; i < 100000; i++) 
{ 

    sprintf(buf, "%4d-%02d-%02d %02d:%02d:%02d", 
     sysTime.wYear, sysTime.wMonth, sysTime.wDay, 
     sysTime.wHour, sysTime.wMinute, sysTime.wSecond); 

} 

주 : 영업 이익이 벗겨진 다운 예라고 코멘트에 대해 설명합니다. "실제"루프에는 데이터베이스의 다양한 시간 값을 사용하는 추가 코드가 들어 있습니다. 프로파일 링은 가해자로서 sprintf()을 나타냅니다.

+0

얼마나 오랫동안 " "? 나는 마이크로 초 (CPU에 의존)보다는 밀리 세컨드 일 것을 기대하고있다. – Roddy

+0

당신은 sprintf를 덜 자주 호출하는 방법을 찾는 것이 더 낫다. – Brian

답변

18

작업을 수행하는 자신의 함수를 작성하는 경우 문자열 값 0 .. 61의 찾아보기 테이블은 연도를 제외한 모든 항목에 대한 산술 연산을 수행하지 않아도됩니다.

편집 : 당신이 60 초 값을 인쇄 할 수 있어야 그 윤초에 대처하기 위해 참고 (및 strftime()에 맞게) 또는 (61)

char LeadingZeroIntegerValues[62][] = { "00", "01", "02", ... "59", "60", "61" }; 

, 방법에 대한 strftime()? 필자는 성능이 어떻게 비교되는지 잘 모르지만 (sprintf()를 호출 할 수도 있음), 살펴볼 가치가 있습니다 (위의 조회 자체를 수행 할 수도 있음). 나는 몇 가지를 할 것

+3

+1 오래된 임베디드 엔지니어가 +1했습니다. 크기가 시간보다 중요 할 때 조회 테이블을 이길 수 없습니다! –

+0

니스. 그러나 이것을 어떻게 사용하는지주의하십시오. 스트링을 추가하기 위해 strcat()를 호출하는 것은 퍼포먼스가 좋지 않은 것처럼 보이기 쉽다. – Roddy

+0

그래, 그들이 모두 2 문자라는 것을 알기 때문에 그냥 memcpy 할 수있다. strtime 페이지를보고있을 때 방금 발생한 일이 있습니다. 문자열 배열은 strtime이 아마도 윤초를 고려하기 때문에 "61"까지되어야합니다. –

6

당신은 차례로 출력의 각 문자를 작성 시도 할 수 있습니다.

buf[0] = (sysTime.wYear/1000) % 10 + '0' ; 
buf[1] = (sysTime.wYear/100) % 10 + '0'; 
buf[2] = (sysTime.wYear/10) % 10 + '0'; 
buf[3] = sysTime.wYear % 10 + '0'; 
buf[4] = '-'; 

... 등 ...

꽤하지 않습니다,하지만 당신은 그림을 얻는다. 그 밖의 것이 없다면 왜 sprintf가 그렇게 빠르지 않는지 설명하는 데 도움이 될 수 있습니다.

OTOH, 아마도 마지막 결과를 캐시 할 수 있습니다. 그렇게하면 매 초마다 생성하면됩니다.

+0

실생활에서 시간 값은 루프의 반복마다 다릅니다 (db로부터). 방금 예제의 코드를 단순화했습니다. –

6

Printf는 다양한 형식을 처리해야합니다. 확실히 source for printf을 잡고 sysTime 구조를 다루는 자신 만의 버전을 롤업하기위한 기초로 사용할 수 있습니다. 그런 식으로 당신은 하나의 논의를 통과하게됩니다.

1

포맷 문자열을 반복적으로 구문 분석하는 것을 피할 수 있고 더 복잡한 경우를 많이 다룰 필요가 없으므로 리턴 buf에 숫자를 배치하는 루틴을 롤링하여 손익을 늘릴 수 있습니다. sprintf 핸들. 나는 실제로 그것을하는 것이 좋습니다 것을 싫어합니다.

난 당신이 어떻게 든 등, 그들이 캐시 할 수 somegtimes 선택 사항입니다, 당신은 이러한 문자열을 생성하는 데 필요한 양을 줄일 수 있는지 알아 내려고하는 것이 좋습니다 것

0

그것은 당신이 거라고 상상하기 어렵다 정수를 포맷 할 때 sprintf를 이길 수 있습니다. sprintf가 당신 문제라고 확신합니까?

+0

sprintf가 시간을들이는 형식화 정수가 아닙니다. 형식 문자열을 구문 분석합니다. 루프에서 변경되지 않으므로 매번 구문 분석을 수행 할 필요가 없습니다. –

2

당신은 "긴"시간에 무엇을 의미 않음 - sprintf()가 루프에있는 유일한 문 루프 (증가, 비교) 무시할 수의 "배관"이 때문에, sprintf()가 소비하는있다 대부분의 시간.

어느 날 밤 3 번가에서 결혼 반지를 잃어버린 남자에 대한 오래된 농담을 기억하되 빛이 밝아서 5 일에 그것을 찾았습니까? sprintf()이 부적절하다는 가정을 "증명"하기 위해 설계된 예제를 작성했습니다.

사용하는 다른 모든 기능과 알고리즘 외에도 sprintf()이 포함 된 "실제"코드를 프로파일하면 결과가 더 정확 해집니다. 또는 필요한 0으로 채워진 특정 숫자 변환을 처리하는 자체 버전을 작성하십시오.

결과에 놀라실 수 있습니다.

+0

코드 스 니펫은 단순화 된 예입니다. 실제 예에서 루프에 많은 것들이 있습니다. (char *) _bstr_t, itoa .... 여기 스프린트가 나쁘다. –

+0

아인슈타인은 가능한 한 간단하게 모든 것을 만들어야한다고 말했습니까? :-) 이것을 반영하기 위해 질문을 편집했습니다. –

1

결과 캐싱은 어떨까요? 그게 가능하지 않을까요? 이 특정 sprintf() 호출이 코드에서 너무 자주 수행되는 것을 고려해 볼 때,이 연속 호출의 대부분에서 연, 달 및 일이 변경되지 않는다고 가정합니다.

따라서 다음과 같이 구현할 수 있습니다. 날짜와 시간을 유지하기 위해 별도의 부품을 선언, 또한

SYSTEMTIME sysTime, oldSysTime; 

: 옛날과 현재 SYSTEMTIME 구조를 선언 들어

char datePart[80]; 
char timePart[80]; 

, 처음, 당신은 모두를 입력해야합니다 sysTime, oldSysTime 및 datePart 및 timePart가 있습니다. 코드 위

sprintf (timePart, "%02d:%02d:%02d", sysTime.wHour, sysTime.wMinute, sysTime.wSecond); 
if (oldSysTime.wYear == sysTime.wYear && 
    oldSysTime.wMonth == sysTime.wMonth && 
    oldSysTime.wDay == sysTime.wDay) 
    { 
    // we can reuse the date part 
    strcpy (buff, datePart); 
    strcat (buff, timePart); 
    } 
else { 
    // we need to regenerate the date part as well 
    sprintf (datePart, "%4d-%02d-%02d", sysTime.wYear, sysTime.wMonth, sysTime.wDay); 
    strcpy (buff, datePart); 
    strcat (buff, timePart); 
} 

memcpy (&oldSysTime, &sysTime, sizeof (SYSTEMTIME)); 

은 코드를 이해하기 쉽게 만드는 일부 중복이 있습니다 아래에 주어진 그러나 이후의 sprintf()의 아주 빠른을 만들 수 있습니다. 쉽게 배제 할 수 있습니다. 시간과 분이 루틴 호출보다 빠르게 변경되지 않는다는 것을 안다면 더 빠르게 할 수 있습니다.

+0

번호. 내 코드 스 니펫이 실제와 단순화되었습니다. –

1

...

  • 캐시 수동으로 시간 변환을 타임 스탬프마다
  • 를 다시 생성 할 필요가 없습니다 현재 시간. printf -family 함수 중 가장 느린 부분은 형식 문자열 구문 분석이며, 모든 루프 실행에서 해당 구문 분석주기를 수행하는 것은 바보입니다.
  • 모든 변환에 대해 2 바이트 조회 테이블을 사용하십시오 ({ "00", "01", "02", ..., "99" }). 이것은 모듈러 산술 연산을 피하기를 원하기 때문이며 2 바이트 테이블은 1 년 동안 모듈로만 사용해야한다는 것을 의미합니다.
2

제이 워커 (Jaywalker)가 매우 비슷한 방법을 제안하고있는 것 같습니다 (한 시간도 못 채우십시오).

이미 제안 된 조회 테이블 방법 (아래의 n2s [] 배열) 외에도 일반적인 sprintf가 덜 집중적이되도록 형식 버퍼를 생성하는 방법은 무엇입니까? 아래의 코드는 연/월/일/시간이 변경되지 않는 한 루프를 통해 매분마다 채워야합니다. 분명히 그 중 하나가 변경된 경우 다른 sprintf 히트를 수행하지만 전반적으로 현재 조회중인 것보다 많지 않을 수 있습니다 (어레이 조회와 결합 된 경우).


static char fbuf[80]; 
static SYSTEMTIME lastSysTime = {0, ..., 0}; // initialize to all zeros. 

for (int i = 0; i < 100000; i++) 
{ 
    if ((lastSysTime.wHour != sysTime.wHour) 
    || (lastSysTime.wDay != sysTime.wDay) 
    || (lastSysTime.wMonth != sysTime.wMonth) 
    || (lastSysTime.wYear != sysTime.wYear)) 
    { 
     sprintf(fbuf, "%4d-%02s-%02s %02s:%%02s:%%02s", 
       sysTime.wYear, n2s[sysTime.wMonth], 
       n2s[sysTime.wDay], n2s[sysTime.wHour]); 

     lastSysTime.wHour = sysTime.wHour; 
     lastSysTime.wDay = sysTime.wDay; 
     lastSysTime.wMonth = sysTime.wMonth; 
     lastSysTime.wYear = sysTime.wYear; 
    } 

    sprintf(buf, fbuf, n2s[sysTime.wMinute], n2s[sysTime.wSecond]); 

} 
+0

새로운 기능 전체 답변은 누구에게나 표시됩니까? 내게는 약 4 줄 밖에 보이지 않는 것 같습니다. – shank

+0

당신은> – quinmars

+0

아, 물론 < for < and >을 사용해야합니다. 감사. – shank

1

현재 비슷한 문제가 발생하고 있습니다.

임베디드 시스템에서 timestamp, filename, line number 등의 디버그 문을 기록해야합니다. 우리는 이미 로거를 사용하고 있지만, 노브를 '전체 로깅'으로 돌리면 모든 프로 시저 사이클을 처리하고 시스템을 절박한 상태로 만듭니다. 컴퓨팅 장치가 절대로 경험하지 않아야하는 상태입니다.

"측정/관찰중인 것을 변경하지 않고 측정/관찰 할 수 없습니다."

성능을 향상시키기 위해 작업을 변경하고 있습니다. 사물의 현재 상태는 원래 함수 호출보다 더 빠릅니다 (해당 로깅 시스템의 병목 현상은 함수 호출에 없지만 별도의 실행 파일 인 로그 판독기에 있습니다.이 경우 실행 파일 자체를 작성하면 삭제할 수 있음). 로깅 스택).

내가 제공해야하는 인터페이스는 void log(int channel, char *filename, int lineno, format, ...)과 같습니다. 채널 이름을 추가해야합니다 (현재 선형 검색). 모든 단일 디버그 문에 대해!) 및 밀리 초 카운터를 포함하는 타임 스탬프. 이 작업을 빨리 처리하기 위해 수행하는 작업 중 일부는 다음과 같습니다.

  • 채널 이름을 문자열 화하여 목록 검색보다 strcpy을 지정할 수 있습니다. 매크로 LOG(channel, ...etc)log(#channel, ...etc)으로 정의하십시오. 당신은 당신이 LOG(channel, ...)log("...."#channel - sizeof("...."#channel) + *11*) 고정하려면 바이트 채널을 정의하여 문자열의 길이를 고정하는 경우 memcpy를 사용
  • 는 시간 소인 문자열 몇 번 두 번째를 생성 길이 있습니다. asctime 또는 뭔가를 사용할 수 있습니다. 그런 다음 모든 디버그 문에 고정 길이 문자열을 memcpy하십시오.
  • 실시간으로 타임 스탬프 문자열을 생성하려면 할당이있는 조회 테이블 (memcpy가 아님)이 완벽합니다. 하지만 이는 2 자리 숫자와 어쩌면 1 년 동안 만 작동합니다.
  • 약 3 자리 (밀리 초) 및 5 자리 (lineno)는 무엇입니까? 나는 itoa를 좋아하지 않는다. div32와 mods가 이기 때문에 사용자 정의 itoa (digit = ((value /= value) % 10))를 좋아하지 않는다. 나는 아래의 함수를 작성하고 나중에 비슷한 것이 가장 최적화 된 C 구현에 대한 확신을주는 AMD 최적화 매뉴얼 (어셈블리)에 있다는 것을 발견했다.

    void itoa03(char *string, unsigned int value) 
    { 
        *string++ = '0' + ((value = value * 2684355) >> 28); 
        *string++ = '0' + ((value = ((value & 0x0FFFFFFF)) * 10) >> 28); 
        *string++ = '0' + ((value = ((value & 0x0FFFFFFF)) * 10) >> 28); 
        *string++ = ' ';/* null terminate here if thats what you need */ 
    } 
    

    마찬가지로, 줄 번호에 대한

    void itoa05(char *string, unsigned int value) 
    { 
        *string++ = ' '; 
        *string++ = '0' + ((value = value * 26844 + 12) >> 28); 
        *string++ = '0' + ((value = ((value & 0x0FFFFFFF)) * 10) >> 28); 
        *string++ = '0' + ((value = ((value & 0x0FFFFFFF)) * 10) >> 28); 
        *string++ = '0' + ((value = ((value & 0x0FFFFFFF)) * 10) >> 28); 
        *string++ = '0' + ((value = ((value & 0x0FFFFFFF)) * 10) >> 28); 
        *string++ = ' ';/* null terminate here if thats what you need */ 
    } 
    

전체

, 내 코드는 지금 매우 빠릅니다. vsnprintf() 약 91 %의 시간이 걸리고 나머지 코드는 9 % 밖에 걸리지 않습니다 (코드 나머지 부분은 vsprintf() 제외).

+0

이것은 대단합니다 - 많은 감사 –

+0

그 마법의 숫자를 설명 할 수 있습니까? – someonewithpc

관련 문제