또 다른 믿을 수 없을만큼 빠른 방법은 max.col
와 매트릭스 추출 [
을 결합하는 것입니다하는을 반환 여기
df[, "max"] <- apply(df[, 2:26], 1, max)
은 기본 예제 각 행에서 최대 값의 열 위치를 인덱싱하는 벡터입니다.
df$max <- df[2:26][cbind(seq_len(nrow(df)), max.col(df[2:26]))]
cbind
각 행에 대한 최대 값의 위치를 인덱싱하는 행렬을 구성하고
[
이 값을 추출하기 위해이를 사용한다.
벤치마킹을 해봅시다.
# data.frame with 1000 observations and 26 variables
set.seed(1234)
df <- data.frame(id=paste0(letters[-1], 1:40), matrix(rnorm(25000L, 5L, 10L), 1000L))
또한 믹스에
matrixStats
패키지에서
rowMaxs
기능을 추가 할 수 있습니다.
library(matrixStats)
library(microbenchmark)
microbenchmark(apply=apply(df[, 2:26], 1, max),
pmax=do.call(pmax, df[2:26]),
max.colSub=df[2:26][cbind(seq_len(nrow(df)), max.col(df[2:26]))],
rowMaxs=rowMaxs(as.matrix(df[2:26])))
Unit: microseconds
expr min lq mean median uq max neval cld
apply 1610.540 1786.5905 2193.5334 1863.5680 1990.4380 6915.999 100 c
pmax 354.382 364.6455 380.1720 373.3405 385.4580 567.923 100 a
max.colSub 604.416 651.7430 822.6015 664.7155 681.2510 3086.512 100 b
rowMaxs 243.762 264.0040 320.2350 277.9750 290.5190 2328.712 100 a
그래서, rowMaxs
는 팩의 꼬리 끝에서 맑은 매트릭스 추출과 pmax
에 의해 다음 max.col
다음 수상자 및 apply
입니다. 10000 행과 26 열이있는 data.frame으로
, 우리는 비슷한 이야기 얻을 :
이
set.seed(1234)
df <- data.frame(id=paste0(letters[-1], 1:400), matrix(rnorm(250000L, 5L, 10L), 10000L))
위의 코드는
Unit: milliseconds
expr min lq mean median uq max neval cld
apply 15.193361 18.299830 21.737516 20.337880 21.774793 99.44836 100 c
pmax 3.060853 3.101481 3.156630 3.137545 3.191430 3.54182 100 a
max.colSub 3.338828 3.642603 7.051700 3.992708 6.336531 84.43119 100 b
rowMaxs 1.244184 1.322302 2.675281 1.508474 1.638053 79.28054 100 a
을 반환 무엇 내가 최대의 열 이름을 원하는 경우 각 행에 대해 .. df $ max [1] = c – syllogismos
na.rm = TRUE를 추가해야하는 경우 어떻게해야합니까? – KillerSnail