2017-04-13 2 views
0

시간이 지남에 따라 항목 판매량이있는 R의 데이터 집합을 분석하려고하는데 범주 형 변수가 판매 수량에 미치는 영향을 알고 싶습니다.R - 연속 변수에 대한 범주 형 변수의 영향 분석

library("data.table") 

qty <- c(100,10000,100,200,150,9000) 
flavour <- c("Mint","Herb","Mint","Mint","Herb","Fruit") 
category <- c("Multiple","Multiple","White","Multiple","Other","White") 

sales_data <- data.frame(qty,flavour,category) 

str(sales_data) 

'data.frame': 6 obs. of 3 variables: 
$ qty  : num 100 10000 100 200 150 9000 
$ flavour : Factor w/ 3 levels "Fruit","Herb",..: 3 2 3 3 2 1 
$ category: Factor w/ 3 levels "Multiple","Other",..: 1 1 3 1 2 3 

나는 다중 회귀선과 단순 선형 회귀선을보고 있었지만 잘못된 경로에있을 수 있다고 생각합니다. 내 이해는 간단한 선형 회귀를 사용하여 2 개의 연속 변수 간의 관계를 결정할 수 있다는 것입니다. 범주 형 변수와 연속 형 변수 사이의 관계를 이해하기 위해 다중 회귀 분석을 사용하는 방법이 있음을 알았지 만, 예제는 이진 값에서 멈춘 것처럼 보입니다. 누군가가 담배를 피우지 않습니까? 각 범주 형 변수에 대해 여러 값을 가지고 있다고 가정 할 때 다중 회귀가 올바른 방법인지, 아니면 완전히 벗어난 것입니까?

실제 데이터 세트에는 약 10 개의 범주 형 변수가 있으며 그 중 일부는 위치와 관련이 있고 다른 것은 브랜드와 관련되어 있습니다.

도움을 주시면 감사하겠습니다. 그리고 이것이 틀린 장소에 있거나 분명하지 않은 것을 사과한다면 - 나는 통계와 R을 동시에 배우므로 빨리 혼란스럽게됩니다.

+0

범주 형 데이터 모델링을 조회해야합니다. 일반화 된 선형 모델을위한 대부분의 교과서/온라인 과정은 이것에 대해 알려주고 R에서 할 수있는 일은 간단합니다 (수식의 RHS에 변수를 붙여 넣기 만하면됩니다). – Spacedman

+0

'시간 경과에 따른 상품 판매', 시간 경과에 따라 예제의 어떤 변수가 바뀌 었습니까? – vincentmajor

+0

@ 스페이스 맨, 고맙습니다. 나는 어떤 검색어를 쓰느냐에 따라 길을 잃었습니다. 많은 토끼 구멍 아래있었습니다. 나는 그것을 볼 것이다, 고마워. – user7863288

답변

1

당신은 분명히 연속 종속 변수 (qty)와 믹스 연속적이고 범주 형인 예측자를 포함하며 이진수 일 필요는 없습니다. 범주 형 변수는 클래스 "factor"이어야합니다. 질문에 표시된 두 범주/요인 변수 :

fm <- lm(qty ~., sales_data) 
summary(fm) 
+0

이것은 데이터가 정상적으로 배포되었다고 가정합니다. 실제로 비 매개 변수화를 원한다면 데이터가 정상적으로 배포되지 않았거나 의사 결정 트리/임의의 포리스트가있는 경우 glm을 사용할 수 있습니다. Bayesian Belief Networks조차 있습니다! – Zafar

+0

일부 테스트에는 정규성 가정이 포함되지만 Gauss Markov 정리의 조건이 유지되면 회귀 계수는 비 정상 성이 존재하는 경우에도 편향되지 않으며 특정 의미에서 최상입니다. –

+0

감사합니다 @ G.Grothendieck이 부분을 자세히 살펴 보겠습니다. 나를 걱정하고있는 한 가지는 정규 분포의 주제입니다. 필자는 다양한 분석을 적용하기 위해 정상적으로 배포되어야하는 데이터에 대한 많은 참고 자료를 읽었습니다. 회귀가 비정상적인 데이터에도 계속 적용될 수 있다는 증거가 있음을 안심할 수 있습니다. – user7863288

관련 문제