2013-03-18 3 views
7

는 특정 기능에 따라 주택을 분류하려는 말 : 가변 길이의 특징 벡터를 다루는 방법은 무엇입니까?

그러나 모든 주택은 주차장이 객실의

  • 총 면적
  • 차고 영역입니다. 그러나 그들이 할 때, 그들의 총 면적은 매우 차별화 된 특징을 만듭니다. 이 기능에 포함 된 정보를 활용하는 좋은 접근 방법은 무엇입니까?

답변

5

차고가 있는지 여부를 나타내는 더미 변수를 사용할 수 있습니다. 또한 차고가있는 영역과 더미가 교차하는 부분 (차고가없는 주택의 경우 영역을 0으로 설정)을 나타낼 수 있습니다.

+2

차고 영역을 0으로 설정하면 더미 변수가 어떻게 변경되는지 알지 못합니다. 존재하지 않는 차고 면적을 0으로 설정하면 나타나는 문제는 그들이 매우 작은 차고와 비슷하게 보이게되어 부정확하다는 것입니다. – jessems

+0

@ ty4 : 이것은 더미가 들어오는 곳입니다. 예를 들어, 선형 모델에 적합하다면, 더미 덕분에 차고가있는 주택과없는 차고를 가로채는 다른 가로채는 것을 얻을 수 있습니다. 두 번째 생각에서, 당신은 아마 심지어 교차 제품이 필요하지 않습니다. – NPE

1

가장 좋은 방법은 모든 기능을 사용하여 데이터 세트를 작성하는 것이며 대부분의 경우 사용할 수없는 열을 0으로 채우는 것입니다.

Total area Number of rooms Garage area 
100   2    0 
300   2    5 
125   1    1.5 

종종, 당신이 선택한 학습 알고리즘이 제대로 해당 항목을 분류하는 제로를 사용할 수있을만큼 강력 할 것 :

귀하의 예제를 사용하면, 같은 것을 할 것이다. 결국 가치의 부재는 여전히 알고리즘에 대한 정보입니다. 데이터가 비뚤어지면 문제가 될 수 있지만이 경우 어쨌든 왜곡 문제를 해결해야합니다.

편집 :

난 그냥 당신이 작은 차고와 혼동 될 수있는 사실 주어진 제로를 사용하는 것이 두려워의 코멘트와 다른 답변이 있었다 알고 있습니다. 그래도 여전히 문제는 보이지 않지만 (작은 차고와 제로 사이에 충분한 차이가 있어야 함), 음수가 아닌 존재하는 영역의 차고를 표시하는 동일한 구조를 계속 사용할 수 있습니다 (-1이라고 가정 해 봅시다).

다른 답변에 표시된 해결 방법도 완벽하게 그럴 수 있습니다. 집안에 차고가 있는지 여부를 나타내는 추가 기능이 있습니다 (특히 의사 결정 트리 기반 알고리즘에서). 나는 단지 데이터의 차원을 가능한 한 낮게 유지하는 것을 선호하지만, 결국 이것은 기술적 결정보다 더 선호된다.

0

영점 표시 기능을 통합하고자합니다. 즉, 차고 크기가 0 일 때 1이고 다른 값이 0 인 지형지 물입니다.

당신의 특징 벡터는 다음과 같습니다 : area | num_rooms | garage_size | garage_exists

그러면 기계 학습 알고리즘은 차고 크기의이 (비선형) 기능을 볼 수 있습니다.

관련 문제