값이있는 데이터 프레임이 있으며 각 값에 대해 해당 값과 관련된 개수가 있습니다. 따라서 값에 대해 카운트를 플로팅하면 히스토그램이 나옵니다. 나는 a
, b
및 c
의 세 가지 유형이 있습니다.히스토그램에서 얻은 값은 cdf로 계산됩니다.
value counts type
0 139648267 a
1 34945930 a
2 5396163 a
3 1400683 a
4 485924 a
5 204631 a
6 98599 a
7 53056 a
8 30929 a
9 19556 a
10 12873 a
11 8780 a
12 6200 a
13 4525 a
14 3267 a
15 2489 a
16 1943 a
17 1588 a
... ... ...
어떻게 이것을 CDF로 가져 옵니까?
지금까지 나의 접근 방식은 매우 비효율적이다 :
get_cumulative <- function(x) {
result <- numeric(nrow(x))
for (i in seq_along(result)) {
result[i] = sum(x[x$num_groups <= x$num_groups[i], ]$count)
}
x$cumulative <- result
x
}
가 그럼 난 종류에 따라 분할하는
ddply
이 포장 : 내가 처음 그 값까지의 수를 요약 함수를 작성. 이것은 분명히 최선의 방법은 아니며 진행 방법에 대한 제안을 듣고 싶습니다. 데이터가 data.frame
DF
에있는 경우
'cumsum'은 어떻게됩니까? –