2017-09-25 3 views
0

레벨은 벡터의 고유 한 값이라는 것을 이해하지만 어떤 요소가 내 머리인지 알 수는 없습니다. 그냥 벡터 값을 반복하는 것 같습니다.R 팩터와 레벨

factor(c(1,2,3,3,4,5,1)) 
[1] 1 2 3 3 4 5 1 
Levels: 1 2 3 4 5 

사람은 어떻게해야 어떤 요인이 설명 할 수, 또는 왜 나는 그것을 사용하는 것?

요인이 데이터베이스의 코드 테이블과 같은지 궁금해지기 시작했습니다. 요소 이름은 코드 테이블 이름이며 레벨은 코드 테이블의 고유 한 옵션입니다. ?

+0

을 피팅 통계 모델은, 범주 형 데이터 (요소)은 종종 매우 다른 처리하는 경우 연속 또는 숫자 데이터보다 당신이 그런 종류의 일을하지 않는다면, 당신은 전혀 요인을 사용하지 않아도됩니다. – joran

+0

드롭 다운 목록에서 고유 한 옵션과 같은 레벨을 볼 수는 있지만 여전히 요인을 이해하지 못합니다. – user1854438

+0

정수의 벡터와 함께 정수가 매핑되는 것으로 생각할 수있는 "레벨"세트가 있습니다. 그래서, 예를 들어'Mender'와'F''라는 변수를 가진'Gender'를 가질 수 있습니다. 요인으로, 이것은 1과 2의 시퀀스 일 뿐이며 1 = F와 2 = M이됩니다. – joran

답변

0

요인은 원시 문자 벡터가 아니라 해시 테이블로 저장됩니다. 이것이 의미하는 바는 무엇입니까? 두 가지 주요 이점이 있습니다.

  1. 훨씬 작은 메모리 풋 프린트. "New Jersey"라는 문구가 ASCII 텍스트로 인코딩 된 텍스트 파일보다 100,000 배 이상 많은 텍스트 파일을 생각해보십시오. 이제 숫자 16을 저장해야한다면 (16 진수를 10 만 배로 저장 한 다음 16이라는 숫자가 "뉴저지"라는 것을 나타내는 다른 표를 저장해야합니다.) 더 가볍고 더 빠릅니다. 값을 "모든 범주에서"(ANOVA 또는 겹쳐진 바브롯을 색칠하는 것으로 생각하십시오.) 우리는 반복적으로 모든 함수를 인코딩하여 문자열 벡터에 관찰 된 선택 사항을 쌓거나 간단히 새로운 유형의 벡터를 만들 수 있습니다. 올바른 선택이 무엇을 알려줍니다. 즉,이 요소라고하며, 유효한 선택이 수준이라고합니다.

+0

저는 R이 모든 캐릭터 가치에 대해 글로벌 해시 테이블을 추가 한 이후로 메모리 우위가 상대적으로 미미한 것으로 생각합니다. – joran

관련 문제