2009-06-15 3 views
4

전 세계 국가의 데이터를 읽으며 Google의 시각화 도구 (특히 map visualizations)를 가지고 놀고 있습니다. 문제는 미국이 항상 앞장서 서 나온다는 것입니다. 대부분의 국가는 1에서 50 사이의 값을 가지고 있지만 미국은 지속적으로 2000+ 이상의 가치를 지니고 있습니다. 즉, 시각화에서는 모든 "작은 나라"의 차이점을 말하기가 어렵습니다. 미국은 항상 짙은 초록색이지만, 모두 같은 색조의 옅은 녹색을 띄게됩니다.시각화를 위해 데이터 값을 "부드럽게"하는 알고리즘

저는 시각화의 정확성에 대해 특히 신경 쓰지 않습니다. 그래서 값을 약간 부드럽게하거나 평균화하여 매우 낮은 값과 낮은 값과 그렇지 않은 값 사이에 눈에 띄는 차이가 있도록하고 싶습니다. 저지대. 이를 수행하기위한 좋은 알고리즘은 무엇입니까?

아주 간단한 문제이지만, 나는 수학적인 사람이 아닙니다.^_^;;

답변

13

데이터를 로그 눈금으로 표시하는 방법은 어떻습니까? 그런 식으로 값 10은 1로 변환되고 값 100은 2로 변환되고 1000은 3으로 변환됩니다.

+0

거기 가서 log()가 좋은 것을 배웠습니다. ;) 감사합니다. – deceze

+1

0은 마이너스 무한대로 변환되므로 문제가 발생할 수 있습니다. 실용적인 트릭은 log (1 + x) 또는 log (0.001 + x) 또는 무엇이든지 작동하거나, log (min (1, x)), log (min (0.001, x)) 등을 취하는 것입니다. –

0

일반적으로 로그 스케일은 대부분의 중요한 데이터 포인트간에 크기의 차가있는 경우 옵션입니다.

그러나 배포본이 bimodal 인 경우 정규화 한 다음 데이터를 로그에 저장하는 것이 좋습니다.

이렇게하려면 미국의 2000+ (GDP는 아마도?)에 해당하는 매개 변수를 찾아 모든 데이터 요소를이 숫자의 지역 값으로 정규화해야합니다. 직관적 인 컬러 맵에 관심이있는 정확한 차이점을 보게 될 것입니다.

관련 문제