data.table

-2열

1답변

는 test = data.table("a"=c(NA,NA, 0, NA, NA), "b"=c(1,3,4,7,8), "c"=c(NA, 2,1,3,1), "group"=c(1,1,1,1,1)) a b c group 1: NA 1 NA 1 2: NA 3 2 1 3: 0 4 1 1 4: NA 7 3 1 5: 0 8 1 1 6: NA 9 1 1

3열

1답변

느린 data.table 부분 집합 dplyr

대 나는 ID colX colY 2222 10 1 2222 3 1 2222 5 0 2222 7 0 3333 8 1 3333 10 1 3333 3 0 3333 2 0 에 다음 ID colX colY 1111 3 1 1111 2 1 1111 6 0 1111 9 0 2222 10 1 2222 3 1 2222 5 0 2222

-1열

1답변

왼쪽 조인 data.table 병합

data.table 라이브러리를 사용하여 R에 2 개의 data.frames가있는 왼쪽 조인을하고 싶습니다. 내가 가진 무엇 : library(data.table) id<-c("a1","a2","a3","a4") id2<-c("a2","a3","a1","a4") y<-c(1,2,3,4) z<-c(3,5,6,7) k<-c(1,3,8,7) df1<

1열

1답변

많은 수의 data.table 열을 단순히 열 이름의 문자열 패턴과 일치 시켜서 변환합니다.

integer에서 이름에 특정 문자열 "_cat"이있는 data.table의 일부 열을 변환하려고합니다. 범주 형 데이터 유형. data.table의 전체 열 수는 큽니다 (700 이상). 데이터 유형을 변경하기 위해 이름에 _cat이 포함 된 항목을 파악하기 위해 700 개 이상의 열을보고 싶지 않습니다. cat_id <- grepl('_cat', col

4열

2답변

R : 누락 된 기호로 인해 data.table을로드 할 수 없습니다. _omp_set_num_threads

가져 오기 목록이있는 R 패키지가 있으며 최신 버전을로드하는 데 문제가 없었습니다. 방금 data.table을 목록에 추가 했으므로 패키지를로드 할 수 없습니다. OS : 맥 OS 시에라 10.12.5/6 GCC : Configured with: --prefix=/Library/Developer/CommandLineTools/usr --with-gxx-in

1열

1답변

데이터 테이블을 사용하여 겹치는 간격을 집계하십시오.

겹치는 간격이있는 샘플 데이터가 있으므로 겹치지 않는 간격으로 데이터를 분할하여 원본 데이터에 따라 각 간격마다 데이터를 추가하고 싶습니다. 난 각 구간 내의 데이터의 합을 이용하여 데이터를 집계하고 싶은 각각의 ID에 대한 x <- c(1000, 2000, 2000, 1000, 1500) y <- c(1200, 3000, 4000, 2000, 3000)

1열

1답변

두 변수를 사용하여 data.table 필터링하기, 우아한 빠른 방법

두 개 이상의 변수 조합에 따라 필터하는 방법이 있는지 물어보고 싶습니다. 더 구체적으로 : library(dplyr) library(plyr) library(data.table) data <- iris %>% cbind(group = rep(c("a", "b", "c"), nrow(iris))) %>% as.data.table() Sep

2열

2답변

목록에서 data.frames를보다 빠른 방법으로 처리하고 결합하는 방법

마지막으로, 매우 느린 데이터 처리와 복수 행 data.frames을 추가하는 문제가 있습니다. 데이터 처리를 위해 lapply과 dplyr 조합을 사용합니다. OTH,이 프로세스는 각 데이터 프레임에 20000 개의 행과 100 개의 파일을 곱한만큼 매우 느려집니다. 현재 이것은 lapply 프로세스가 완료된 후에도 나를위한 거대한 병목입니다. bind_

2열

2답변

효율적인 시간별 그룹 채우기

시간별, 그룹별로 시계열 데이터를 채울 방법을 찾고있었습니다. 내가 사용하고있는 매우 비효율적 인 방식은 그룹당 데이터 집합을 split으로 설정하고 해당 목록의 모든 요소에서 사용자 정의 시계열 채우기 기능 (최대와 최소 사이의 시퀀스 생성 및 병합)을 적용하는 것입니다. 말할 필요도없이,이 작업은 분할을 통과하지 않을 것입니다. 내 데이터 세트의 모습

1열

2답변

I 데이터는 4 개 가지 수준에서 주어진되는 데이터 테이블이

특정 비율을 계산하는 방법 (레벨 0, 1, 2, 3). 레벨 3의 공급이 각 주마다 레벨 2에서 어떻게 분배되는지 계산하고 싶습니다. 나는 perc = c(NA,NA,NA,0.5,0.5,NA,1,NA,NA,0.33,0.33,0.33,NA,1) DT2 = data.table(DT,perc) 기본적으로 library(data.table) state_c