2017-02-13 1 views
2

기본 R 함수 factor()은 공백으로 구성된 문자 요소를 NA 대신 유효한 요소 요소로 해석합니다. 이와 같이 공백 문자 요소를 해석 할 때 어떤 이점이 있습니까? 호환성을 유지하기 위해 그대로 유지되는 기존 기능입니까?빈 공간 요소를 R 함수 인수()에서 유효한 요소 요소로 해석 할 때의 이점은 무엇입니까?

예 :

계수 (C ("A", "A", "", "B")) I 이것이 통상 문제가있다 아니라고 인식

재현 할 수있는 예제를 시작점으로해서 해결해야하지만 어쨌든 시도해보기로했습니다. factor()이 공백 문자 요소를 해석하도록하는 디자인 결정은 나를 혼란스럽게 만듭니다. 이러한 요소를 NA으로 해석하는 것이 명백한 단점이없이 단순화하는 것으로 보입니다.

+0

빈 문자열과 문자 NA 사이에 차이가 있다는 것을 알고 있습니까? – Roland

+0

예, 차이가 있음을 알고 있습니다. 그러나 factor()의 사용 내에서 ""를 NA로 취급하는 것이 이치에 맞지 않습니까? function factor()를 사용할 때이 해석에 무엇이 잘못 될 수 있습니까? – CarlAH

+0

요인 기능은 모델링에서 가장 중요합니다. 우리 중 일부는 빈 문자열 수준과 우리 모델의 NA 값을 구별 할 수있는 옵션을 갖고있는 것을 높이 평가합니다. – Roland

답변

5

이와 같이 공백 문자 요소를 해석하면 어떤 이점이 있습니까?

빈 문자열 데이터는 일반적으로 "이 빈 문자열"을 의미하기 때문에

하지 "이 데이터가 없습니다."

물론 사용법에 따라 다릅니다. 빈 "이름"입력란은 데이터 누락 가능성이 큽니다. 그러나 빈 "제목"필드는 바로 그 것입니다 : 제목 없음. 그 외에는 제목이 없다는 것을 어떻게 인코딩 할 것인가? ("Mr"와 "Mrs"는 별도의 필드가 있다고 가정).

요인의 경우 빈 레이블을 사용하는 것이 의미가 없습니다. 그러나 R은 문자열을 요인으로 변환하는 경향이 있으며 (특히 파일에서 표 형식의 데이터를 읽을 때), 빈 값을 모두 NA로 처리하면 잘못된 주석이 많이 생길 수 있습니다. 일반적으로 이러한 암시 적 변환은 항상 무손실이어야합니다. 즉 변환되는 값의 전체 도메인을 보존해야합니다.

+0

그러나 문자 요소가 이름이라면 어쨌든 사용자 요소()에 의미가 없습니까? 그러나 누락 된 값을 ""로 표시하면서 누군가가 csv의 문자 요소로 요소를 저장하는 것이 그럴듯합니다. – CarlAH

+0

@CarlAH 맞습니다. 이름에는 의미가 없지만 제목에는 완전히 적용됩니다. 빈 문자열을 누락 된 문자열과 다르게 취급하는 더 많은 이유. 빈 문자열을 통해 CSV 누락 값을 나타내는 경우, 나는 사냥을 할 것이며, 나는 당신을 찾을 것이며,이 모든 빈 문자열을 "NA"로 변경할 것입니다. 손으로. Excel에서. 검색 및 바꾸기 없음. 당신은 경고를 받았습니다. –

+2

모든 콘라드의 누락 값을 빈 문자열로 변경하고 4 월 1 일에 배포하는 방법을 찾으려고합니다. – Dason

관련 문제