~ 300k 데이터 포인트의 산점도를 생성하고 있으며 구조가 표시되지 않는 곳에서 너무 붐비고 있다는 문제가 있습니다. !분산 형 플롯의 밀도가 가장 높은 영역에 대한 윤곽 그리기
밀도가 가장 높은 부분에 대한 등고선 플롯을 생성하고 덜 밀도가 높은 영역을 데이터 포인트 scatter()
과 함께 남기고 싶습니다.
각 데이터 포인트에 대해 가장 가까운 이웃 거리를 개별적으로 계산하려고 시도한 다음이 거리가 특정 값에 도달하면 등고선을 그려 채우고 그 다음에 채우기가 훨씬 큰 값) 그냥 산산조각을 내라.
나는 며칠 동안 노력했으나 실패했다. 나는이 경우 전통적인 등고선이 잘 작동하는지 확신하지 못한다.
코드를 제공 하겠지만 너무 지저분하고 문제를 혼동시킬 수 있습니다. 그리고 계산이 너무 집약적이어서 작동한다면 PC가 고장날 것입니다!
미리 감사드립니다.
p.s. 나는 해답을 찾아서 찾고있다! 나는 그것이 나타난 모든 결과조차도 가능하지 않다는 것을 확신합니다!
편집 :이 아이디어는 300k 샘플의 구조 내에서 특정 지점이 어디에 위치하는지 확인하는 것입니다. 여기 예제 플롯이 있는데, 내 포인트는 3 개의 diff로 분산되어 있습니다. 그림 물감.
나는 내 데이터에서 무작위로 1000 개의 데이터 포인트를 샘플링하여 텍스트 파일로 업로드하려고 시도 할 것이다. 건배 스태커. :)
편집 : 안녕하세요, 다음은 몇 가지 샘플 데이터입니다. 1000 행 - 두 개의 열 [X,Y]
(또는 위 그림에서 [g-i,i]
) 공백으로 구분됩니다. 다들 감사 해요! the data
이 값이 붐비는 방법에 따라, 당신은 아마'산란 (X, Y, 알파 = 0.1) '또는 어떤 적합한 작은 값을 수행하여 어떤 구조를 애타게 할 수있다. 당신이 제안한 것을하기 위해, 나는 커널 밀도 추정치를 만들 것이다 ('scipy.stats.kde'를 보라). – chthonicdaemon
2d 히스토그램을 사용하여 데이터를 표시하지 않는 이유는 무엇입니까? –
@FriskyGrub 당신은 실제 데이터와 동일한 유형/모양/등의 무작위 데이터를 제공 할 수 있습니다. 처음부터 실제 데이터를 생성 한 복잡한 단계를 게시 할 필요는 없습니다. 우리가 당신에게 유용한 답변을 더 쉽게 제공합니다. – YXD