그룹을 해제 변수 나 데이터베이스 (user_reg
) 고객의 정보 (customer_id
)를 포함하는이 잎, 자신의 등록일 (reg_date2
)과 주문 날짜 (order_date2
, 고객 당 자주> 1).dplyr :: GROUP_BY이
나는 첫 번째 순서가 발생한 경우) 일을 알고 싶어하고 2) 독특한 user_id
, reg_date2
및 first_order
와 tbl
와 끝까지.
user_reg %>% select(user_id, reg_date2, order_date2) %>%
group_by(user_id) %>%
mutate(first_order=min(order_date2)) %>%
select(user_id, reg_date2, first_order) %>%
arrange(user_id) %>%
group_by(user_id)
아래의 코드를 실행 한 후 나는 아직도 user_id
당 여러 행을 얻을.
user_id reg_date2 first_order
<int> <date> <date>
1 -1 2015-11-03 2015-11-25
2 1 2013-10-24 2014-10-11
3 1 2013-10-24 2014-10-11
4 1 2013-10-24 2014-10-11
5 1 2013-10-24 2014-10-11
6 1 2013-10-24 2014-10-11
어떤 문제를 해결할 수 있습니까?
이'대신'mutate'의 summarize'위한 작업 같은데? – aosmith
내 목표는 언급 한 모든 변수가있는 테이블을 가지는 것입니다. summarize()는 user_id와 first_order 만 제공합니다. 게다가, user_id와 관심 변수를 가진 각각의 데이터 프레임을 여러 개 만들어서 결합하려고해도 여전히 user_id 당 여러 개의 엔트리가 있습니다. –
글쎄, mutate는 항상 같은 수의 행을 원래 데이터 집합으로 사용합니다. 이 단순한 경우,'reg_date2'를 그룹핑 변수에 포함 시키거나'summarize'에 포함시킴으로써 (reg_date2 = unique (reg_date2')) 추가 컬럼을 유지하는 것이 쉽습니다. 만약 당신이 mutate를 선호한다면, – aosmith