1

필자는 피쳐 엔지니어링에서 Kaggle의 fill null 메소드를 살펴 본다. 일부 플레이어는 NA에 다른 개체 값을 입력합니다.피쳐 엔지니어링에서 객체 속성에 null 값을 채우는 방법은 무엇입니까?

예를 들어 성별 열에 'Male', 'Female'및 NA 값이 있습니다. 메서드는 NA에 'Middle'와 같은 다른 객체 값을 채 웁니다. 그리고 그 후에, 그것은 어떤 null도없이 성 속성을 다루고 pandas는 null을 찾지 않을 것입니다.

나는 방법이 기계의 성능이나 좋은 기능 공학을 배우는 기계에 실제로 좋은 영향을 미치고 있는지 알고 싶습니까? 게다가, 데이터 세트에서 지식이없는 발견 후에 NA를 채울 좋은 다른 방법이 있습니까?

답변

2

먼저 모델이 NA (예 : xgboost)를 관리 할 수 ​​있는지 여부에 따라 다릅니다. (우울 사람이 작업을 건너 뛸 가능성이 높습니다 같은) 둘째, 행동의 드롭 아웃 설명이

이 질문에 대한 전체 문학 있습니다. 수행하는 주요 방법은 다음과 같습니다

  1. 그냥 교체에 누락 된 데이터를 채우 행을
  2. 드롭 (중간, 가장 볼 가치를 ...)
  3. 이 누락 된 데이터를 입력하고 일부 오류를 추가 그것은
  4. 그래서 여기

, 당신도 그것을 NA를 떠나 xgboost 사용하여 uncomplete 행을 떨어 뜨리거나이 더 갈 완 경우 남성과 여성 사이에

몇 가지 권장 사항을 가장 빈번한 값을 넣을 수 있습니다 :

  1. 시도는 datas는
  2. 는 솔루션의 민감도 분석을 수행 누락 된 이유를 이해하는 당신은 주로 데이터에 따라
0

를 선택했다. 하지만 여전히 할 수있는 일이 몇 가지 있으며 작동하는지 확인하십시오.

1 행 개수에 비해 누락 된 값이 적 으면 그 값을 삭제하는 것이 좋습니다.

2. 큰 누락 값이있는 경우 "IsMissing"기능을 만듭니다 (다른 사람은 NULL 0에 1). 때로는 훌륭합니다.

3. 많은 양의 데이터가 있고 어떻게 든 그 기능이 중요하다는 것을 알았다면 기차 데이터를 사용하여 Male/Female을 예측하도록 모델을 훈련 할 수 있습니다. 그런 다음 Null 값의 행을 테스트 데이터로 사용하십시오. 그들의 가치를 예측하십시오 (남 /여).

창의성과 논리에 관한 모든 것. 위의 마지막 방법에서 볼 수 있듯이 모든 가설은 효과가 없습니다. NULL 값은 두 개의 값 (M/F) 만 가질 수 있습니다. 실제로는 그렇지 않을 수도 있습니다.

그래서 다양한 전술을 가지고 놀고 데이터에 적합한 것이 무엇인지 확인하십시오.

희망이 있습니다!

관련 문제