나는 필수 변수의 평균, 중앙값, 표준 편차 및 사 분위수 범위 (IQR)를 산출함으로써 몇 가지 연속 변수를 포함하는 아주 큰 데이터 테이블을 (물론 범주 형 브레이크 변수로) 집계해야합니다.SPSS에서 IQR을 집계하는 방법은 무엇입니까?
처음 세 개는 SPSS 집계 집계를 사용하는 쉬운 방법이지만 데이터 표를 집계하여 IQR을 계산하는 방법을 알지 못합니다.
설명문 (4 분위수 기준)을 사용하여 IQR을 계산할 수 있지만 계산시 집계가 필요하므로이 옵션이 아닙니다. 불행하게도 R을 사용하는 것은 이상한 환경 덕분에 실패합니다. R 파일의 거대한 쉼표로 구분 된 파일을 기본 :: read.table이나 sqldf, bigmemory 및 ff 패키지로로드 할 수 없습니다.
어떤 아이디어라도 환영합니다! 그리고 물론 : 미리 감사드립니다.
P.S는 : 나는 1.5 표준 편차를 곱하여 IQR을 추정 생각하지만, 그 방법은 분포가 왜곡 될 때, 그래서 가정 정상이 스탠드를하지 않습니다 작동하지 않을 것입니다.
P.S .: SPSS에서 R을 사용하면 순수한 R로 데이터 집합을 여는 것과 같은 메모리 문제가 발생하지 않을 것이라고 생각하십니까?
기존 데이터베이스에 대한 액세스 권한이 있습니까? 그렇다면 중앙값에서 데이터를 두 그룹으로 나눈 다음 75 %와 25 % 백분위 수에 대한 상위 그룹과 하위 그룹의 중간 값을 찾아 IQR을 얻을 수 있습니다. – Chase
감사합니다! 나는 너의 제안을 조사 할 것이다. 비록 내가 '전통적인 데이터베이스'라는 말을 얻지는 못했지만 파일을 나누는 것이 사소한 것이 아닌가하는 두려움이 있습니다. 나는 2000 개의 카테고리를 가진 변수에 의해 파일을 집계하고 싶다. 그래서 결과 행렬은 모든 집계 된 변수를 가진 약 2000 가지의 경우를 가질 것이다. 파일을 두 개로 잘라서 두 그룹의 계산 중앙값은 모든 변수의 중단 변수에서 연속 변수의 중앙값을 계산하고 파일을 두 번 2000 파일로 분할하고 중앙값을 다시 계산해야합니다. 까다 롭긴하지만 요점을 모르겠다. :) – daroczig
죄송합니다. 관계형 데이터베이스, 즉 Microsoft SQL 또는 MySQL 등을 말 했어야합니다. 대부분의 관계형 데이터베이스를 사용하면 플랫 파일을 직접 읽을 수 있습니다. 그러나 - 당신의 마지막 코멘트를 읽은 후에, 나는 그것이 결국 아마도 최선의 방법이라고 생각하지 않습니다. – Chase