HIVE를 통해 추출한 데이터가 있습니다. 결국 우리는 500,000 행 정도의 csv에 대해 이야기하고 있습니다. 나는 그들을 간격을두고 그룹화 한 후에 음모를 꾸미고 싶다.R 및 유용한 시각화의 데이터 그룹화 및 구축
그룹화 이외에도 데이터를 시각화하는 방법이 명확하지 않습니다. 우리는 낮은 지출과 때로는 높은 빈도에 대해 이야기하고 있으므로이 문제를 어떻게 처리해야할지 모르겠습니다. 여기
는 헤드를 통해 관련 (데이터) 그룹 I 원하는
userid64 spend freq
575033023245123 0.00924205 489
12588968125440467 0.00037 2
13830962861053825 0.00168 1
18983461971805285 0.001500366 333
25159368164208149 0.00215 1
32284253673482883 0.001721303 222
33221593608613197 0.00298 709
39590145306822865 0.001785281 11
45831636009567401 0.00397 654
71526649454205197 0.000949978 1
78782620614743930 0.00552 5
간격 데이터이다. 그룹을 나타내는 추가 열이 필요합니다. 첫 번째 그룹에는 1에서 100 사이의 빈도 (freq라고 함)가있는 모든 데이터가 포함되어야합니다. 두 번째 그룹에는 빈 칸수가 101에서 200 사이 인 모든 행이 포함되어야합니다.
결과는 다음을 얻을 수있는 좋은 부드러운 예술이 있는가
userid64 spend freq group
575033023245123 0.00924205 489 5
12588968125440467 0.00037 2 1
13830962861053825 0.00168 1 1
18983461971805285 0.001500366 333 3
25159368164208149 0.00215 1 1
32284253673482883 0.001721303 222 2
33221593608613197 0.00298 709 8
39590145306822865 0.001785281 11 1
45831636009567401 0.00397 654 7
71526649454205197 0.000949978 1 1
78782620614743930 0.00552 5 1
같이해야합니까? 다가올 플롯에이 그룹이 필요합니다. 지출에 대한 개요를 얻으려면 모든 간격에 대해 시각화를 수행하고 싶습니다. 시각화에 대한 아이디어가 있으면 알려주십시오. 나는 박스 플롯으로 작업해야한다고 생각했다. 당신이 매 100 개 유닛 그룹 freq
하려면 df
이 dataframe입니다
정수 나누기를 사용하는 대신 '잘라 내기'가 있습니다 : as.numeric (cut (x $ freq, (0 : 10) * 100))'. 이 방법은 상한선을 하드 코딩한다는 점에 유의하십시오. 프로그래밍 방식으로 상한을 결정하는 것이 더 나을 것입니다. 어떤 시점에서 아래의 대답을 사용하는 것이 더 쉬워집니다. –