진단, 타임 스탬프, patientID 및 인구 통계 정보가 포함 된 수백만 건의 환자 조우 중 대규모 데이터 세트가 있습니다.SAS : 여러 줄에 환자 데이터가있는 특정 유형의 질병 수입니다.
우리는 특정 유형의 질병이 흔히 공통 조건에서 합병증이된다는 것을 발견했습니다.
나는 각 환자가 가지고있는 이런 유형의 질병의 수를 세고, 얼마나 많은 사람들이 1,2,3,4 등의 추가 질병을 갖고 있는지를 보여주는 막대 그래프를 만들고 싶습니다.
이것은 데이터 형식입니다.
PatientID Diagnosis Date Gender Age
1 282.1 1/2/10 F 25
1 282.1 1/2/10 F 87
1 232.1 1/2/10 F 87
1 250.02 1/2/10 F 41
1 125.1 1/2/10 F 46
1 90.1 1/2/10 F 58
2 140 12/15/13 M 57
2 282.1 12/15/13 M 41
2 232.1 12/15/13 M 66
3 601.1 11/19/13 F 58
3 231.1 11/19/13 F 76
3 123.1 11/19/13 F 29
4 601.1 12/30/14 F 81
4 130.1 12/30/14 F 86
5 230.1 1/22/14 M 60
5 282.1 1/22/14 M 46
5 250.02 1/22/14 M 53
일반적으로, 나는 DO 루프의 생각,하지만 난 환자 1과 같은 데이터 집합의 중복 (282.1가 두 번 나열됩니다)이 있기 때문에 어디서부터 시작 모르겠어요. 나는 그것을 어떻게 설명 할 지 모르겠다. 이견있는 사람?
대상 진단은 282.1, 232.1, 250.02입니다. 이 예에서 환자 1의 수는 3이고 환자 2의 수는 2입니다.
편집 : 편집 : 편집 : 이것은 내가 사용했지만 출력은 출력의 여러 줄에 각 PatientID를 표시합니다.
PROC SQL;
create table want as
select age, gender, patientID,
count(distinct diagnosis_description) as count
from dz_prev
where diagnosis in (282.1, 232.1)
group by patientID;
quit;
출력 테이블의 모양입니다. 왜이 환자는 여러 번 나타나나요?
Obs AGE GENDER PATIENTID count
1 55 Male 107828695 1
2 54 Male 107828695 1
3 54 Male 107828695 1
4 54 Male 107828695 1
5 54 Male 107828695 1
귀하가 시도한 것을 게시하십시오. – Reeza
다음 질문은 어떤 질병이 될 것인가와 그룹이 무엇인지에 대한 것이므로 귀하의 접근 방법이이를 고려하고 있는지 확인하십시오. – Reeza
@Reeza 나는 내가 시도한 것과 그 결과를 보여주기 위해 글을 업데이트했다. – Kevin