데이터 분석을 위해 R을 사용하며 매우 만족합니다. 그러나 데이터 정리는 약간 쉬울 수 있습니다. 나는이 일에 적합한 다른 언어를 배우려고 생각하고있다. 특히, 원시 데이터를 가져와 불필요한 변수 나 관찰을 제거하고 R에서 쉽게로드 할 수 있도록 서식을 지정하는 데 사용할 도구를 찾고 있습니다. 여러 줄 텍스트와 달리 내용은 대부분 숫자와 문자열 데이터입니다.데이터 청소를위한 Python 또는 awk/sed
awk/sed 조합 대 파이썬을 고려하고 있습니다. (나는 Perl이 또 다른 선택이 될 수 있다는 것을 알고 있지만, 다른 언어를 배우려면 Python이 더 좋고 확장 가능한 선택 인 것 같다.) sed/awk의 장점은 더 빠를 것이라는 점이다. 배우다. 단점은이 조합이 파이썬만큼 확장 성이 없다는 것입니다. 실제로 파이썬을 배웠다면 "mission creep"을 상상할 수 있습니다. 괜찮 았지만 내 목표는 아닙니다.
다른 고려 사항은 대용량 데이터 세트에 대한 어플리케이션입니다. 필자가 이해하는 것처럼, awk/sed는 라인 단위로 동작하지만 파이썬은 일반적으로 모든 데이터를 메모리로 가져온다. 이것은 sed/awk의 또 다른 장점이 될 수 있습니다.
다른 문제가 있습니까? 당신이 제공 할 수있는 조언을 주시면 감사하겠습니다. (I는 R 사용자가 자신의 청소 권장 사항을 제공하기위한 R 태그를 포함.)
"청소"는 이상 치를 잘라내거나 일관성 또는 다른 것을 복원하는 것을 의미합니까? "데이터"로, 당신은 majorly 숫자 또는 문자열, 또는 단순히 텍스트를 의미합니까? 나에게 현재의이 질문의 목표는 너무 일반적이다. – nye17
@ nye17, 모호한 점에 대해 사과드립니다. 좀 더 자세하게 설명했습니다. – Charlie
주로 파이썬을 직접 사용하지만, 텍스트 기반 데이터 세트를 순수하게 조작하여 R의 데이터 인터페이스 역할을하는 경우 강력한 정규 표현식과 텍스트 처리의 유연성을 감안할 때 강력하게 perl을 제안합니다. – nye17