2016-09-13 2 views
0

HIVE를 통해 추출한 데이터가 있습니다. 결국 우리는 500,000 행 정도의 csv에 대해 이야기하고 있습니다. 나는 그들을 간격을두고 그룹화 한 후에 음모를 꾸미고 싶다.R 및 유용한 시각화의 데이터 그룹화 및 구축

그룹화 이외에도 데이터를 시각화하는 방법이 명확하지 않습니다. 우리는 낮은 지출과 때로는 높은 빈도에 대해 이야기하고 있으므로이 문제를 어떻게 처리해야할지 모르겠습니다. 여기

는 헤드를 통해 관련 (데이터) 그룹 I 원하는

userid64   spend   freq 
575033023245123  0.00924205  489 
12588968125440467 0.00037   2 
13830962861053825 0.00168   1 
18983461971805285 0.001500366  333 
25159368164208149 0.00215   1 
32284253673482883 0.001721303  222 
33221593608613197 0.00298   709 
39590145306822865 0.001785281  11 
45831636009567401 0.00397   654 
71526649454205197 0.000949978  1 
78782620614743930 0.00552   5 

간격 데이터이다. 그룹을 나타내는 추가 열이 필요합니다. 첫 번째 그룹에는 1에서 100 사이의 빈도 (freq라고 함)가있는 모든 데이터가 포함되어야합니다. 두 번째 그룹에는 빈 칸수가 101에서 200 사이 인 모든 행이 포함되어야합니다.

결과는 다음을 얻을 수있는 좋은 부드러운 예술이 있는가

userid64   spend   freq  group 
575033023245123  0.00924205  489   5 
12588968125440467 0.00037   2   1 
13830962861053825 0.00168   1   1 
18983461971805285 0.001500366  333   3 
25159368164208149 0.00215   1   1 
32284253673482883 0.001721303  222   2 
33221593608613197 0.00298   709   8 
39590145306822865 0.001785281  11   1 
45831636009567401 0.00397   654   7 
71526649454205197 0.000949978  1   1 
78782620614743930 0.00552   5   1 

같이해야합니까? 다가올 플롯에이 그룹이 필요합니다. 지출에 대한 개요를 얻으려면 모든 간격에 대해 시각화를 수행하고 싶습니다. 시각화에 대한 아이디어가 있으면 알려주십시오. 나는 박스 플롯으로 작업해야한다고 생각했다. 당신이 매 100 개 유닛 그룹 freq하려면 df이 dataframe입니다

+0

정수 나누기를 사용하는 대신 '잘라 내기'가 있습니다 : as.numeric (cut (x $ freq, (0 : 10) * 100))'. 이 방법은 상한선을 하드 코딩한다는 점에 유의하십시오. 프로그래밍 방식으로 상한을 결정하는 것이 더 나을 것입니다. 어떤 시점에서 아래의 대답을 사용하는 것이 더 쉬워집니다. –

답변

2

, 당신은 base R

ceiling(df$freq/100) 

#[1] 5 1 1 4 1 3 8 1 7 1 1 

ceiling 기능을 시도 할 수 있습니다.