Survival Manual for Statistical Analysis
(통계분석 생존지침서)


by Byung Gil Choi, MD, PhD.
SPSS Discriminant analysis (판별분석)
개념
독립변수 n 개 (연속 or 비연속변수)
종속변수 1 개 (군을 나타내는 비연속변수)

D (discriminant function, 판별함수) = B0 + B1X1 + B2X2 + B3X3 ... + BnXn

One-way ANOVA와 Logistic regression analysis를 혼합한 형태의 분석방법으로 종속변수에 영향을 주는 독립변수를 검정하고 이들 독립변수를 이용하여 종속변수를 예측할 수 있는 판별함수을 만든다.

예1)
지난 병원장 선거에서 후보자1, 2, 3 에게 투표를 한 사람들의 인적사항 (임상과, 나이, 성별, 졸업학교, 대학원 지도교수, 일일외래환자수 평균)을 조사하였다.
어떤 인적사항이 병원장 후보 선택에 영향을 주었는가?
이번 병원장 선거에서 조사항목이 [영상의학과, 54세, 남자, 하버드대, 홍길동, 120명]인 사람은 어떤 병원장 후보를 뽑을 것인가?

예2)
간암환자를 1개월 후 재발, 1-3개월 후 재발, 3개월 후 재발한 3개군으로 나누었다.
이 환자들의 a-FP, angio-staing여부, 나이, HBsAg여부,HBsAb여부를 조사하였다.
재발 시기에 영향을 주는 요인은 어떤 것인가?
새로운 환자가 왔다. 이 환자의 a-FP, angio-staing여부, 나이, HBsAg여부,HBsAb여부 결과가 나왔다. 그렇다면 이 환자는 언제 재발할 가능성이 높은가?
예제
여러 변수중에 초음파 검사에서 Liver chirrhosis로 진단되는데 영향을 미치는 변수는 무엇인가?

새로운 환자가 왔다. 이 환자의 변수들을 아는 경우 이 환자가 초음파 검사에서 Liver chirrhosis로 진단될 것을 예측할 수 있는 함수는 어떤 것인가?
DownLoad discriminant_analysis.sav
방법
독립변수 연속변수 Age
AST (sGOT)
ALT (sGPT)
비연속변수 Sex (Male = 1, Female = 2)
HBsAg (Negative = 0, Positive = 1)
HBsAb (Negative = 0, Positive = 1)
HCVAb (Negative = 0, Positive = 1)
종속변수 군을 나타내는 비연속변수 US (Normal liver = 0, Liver cirrhosis = 1)
1. Data 입력

2. 선택

[MENU]-[Analyze]-[Classify]-[Discriminant]


3. 설정

[Grouping Variable]에 군을 나타내는 변수를 넣고, [Define Range]를 누른다.

4. [Define Range]

US (Normal liver = 0, Liver cirrhosis = 1)이므로

0, 1을 입력하고,

[Continue]를 누른다.

* 만일 군이 1, 2, 3 이라면 1와 3을 입력한다.


5. 설정

[Independents]에 원하는 변수를 넣고, [Statistics]를 누른다.

6. [Statistics]

[Unstandardized]를 선택하고, [Continue]를 누른다.

7. 설정

[Classify]를 누른다.

8. [Classification]

[Casewise results]와 [Summary table]을 선택한다.

[Continue]를 누른다.

9. [Method]

** [Method]에는 [Enter independents together], [Use stepwise method]가 있는데.. 이는 Multiple regression analysis의 [Enter]와 [Stepwise]방법에 해당한다.

[Enter independents together] : 연구자가 관련이 있다고 생각하는 변수를 모두 분석함.
[Use stepwise method] : 프로그램이 자동으로 통계적으로 유의한 변수들만 이용하여 분석함.

어떤 방법을 채택하느냐는 어디까지나 연구자의 의도에 따라서 이루어질 수 있으나, 연구자의 경험과 선행 연구 사례들을 분석하여 연관성이 있는 변수를 포함하는 것이 더 추천되는 방법이다.

그러나 연관성 자체의 경험이 부족하거나 이전의 사례들이 없는 경우에는 [Use stepwise method]방법을 채택하여 통계적으로 유의한 항목을 자동으로 반영하도록 하는 것도 좋을 것이다.

[Enter independents together]를 선택하고,

[OK]를 누른다.

결과해석1을 참조할 것

[Use stepwise method]를 선택하고,

[OK]를 누른다.

결과해석2를 참조할 것
결과해석1 by [Enter independents together]
[Canonical Discriminant Function Coefficients]표가 가장 중요하다.

D (discriminant function, 판별함수) = B0 + B1X1 + B2X2 + B3X3 ... + BnXn

즉, 이 표에는 판별함수를 추정할 수 있는 상수값들이 있다.

Liver cirrhosis진단에 영향을 주는 변수들은, [Enter independents together]를 사용하였으므로 채택한 모든 변수에 대한 상수값이 나타나 있다.

그러므로 원하는 판별함수 D = -2.960 + (0.004*Age) - (0.267*Sex) + (1.715*HBsAg) + (0.070*HBsAb) + (1.263*HCVAb) + (0.007*AST) + (0.045*ALT) 이다.

[Functions at Group Centroids]표를 보면

Normal Liver 군의 D 평균값: -1.356
Liver Cirrhosis 군의 D 평균값: 2.623

두 군간의 중간점 (cutting score)는 다음의 식으로 직접 계산하여야 한다.

Cutting score = (N2C1+N1C2)/(N1+N2) [N1, N2 : group 1, 2의 표본수][C1, C2 : group 1, 2의 D 평균값]

Cutting score보다 작은 경우 즉 -1.356에 가까운 것은 Normal Liver군에 해당되고,
Cutting score보다 큰 경우 즉 2.623에 가까운 것은 Liver Cirrhosis 군에 해당된다.


입력한 data에서의 실제 group(Actual Group, 입력한 값)과 판별함수를 이용하여 계산한 경우 예상되는 group(Predicted Group)을 보여주고 있으며,

각 case의 D값을 마지막 (Function 1)에 나타내고 있다.

** 표는 actual group과 predicted group간의 차이가 있는 경우를 의미한다. (예, 39번 case)



위의 판별함수 D로 계산을 한 결과

실제 Data의 Normal Liver (Original) 116명 중 110명은 Normal Liver로, 6명은 Liver Cirrhosis로 예측되었다.

실제 Data의 Liver Cirrhosis (Original) 60명 중 3명은 Normal Liver로, 57명은 Liver Cirrhosis로 예측되었다.

최종 결론:

연구자가 선택한 변수가 Liver Cirrhosis에 영향을 주는 판별함수는
D = -2.960 + (0.004*Age) - (0.267*Sex) + (1.715*HBsAg) + (0.070*HBsAb) + (1.263*HCVAb) + (0.007*AST) + (0.045*ALT) 이고,

이 판별함수는 94.9 %의 판별력을 가지고 있다.
결과해석2 by [Use stepwise method]
[Canonical Discriminant Function Coefficients]표가 가장 중요하다.

D (discriminant function, 판별함수) = B0 + B1X1 + B2X2 + B3X3 ... + BnXn

즉 이 표에는 판별함수를 추정할 수 있는 상수값들이 있다.

Liver cirrhosis진단에 영향을 주는 변수들은, [Use stepwise method]를 사용하였으므로 프로그램에서 자동으로 유의한 순으로 채택하게 되고 이 변수들에 대한 상수값이 나타나 있다.

그러므로 원하는 판별함수 D = -2.787 + (1.730*HBsAg) + (1.274*HCVAb) + (0.046*ALT) 이다.

[Functions at Group Centroids]표를 보면

Normal Liver 군의 D 평균값: -1.330
Liver Cirrhosis 군의 D 평균값: 2.572

두 군간의 중간점 (cutting score)는 다음의 식으로 직접 계산하여야 한다.

Cutting score = (N2C1+N1C2)/(N1+N2) [N1, N2 : group 1, 2의 표본수] [C1, C2 : group 1, 2의 D 평균값]

Cutting score보다 작은 경우 즉 -1.330에 가까운 것은 Normal Liver군에 해당되고, Cutting score보다 큰 경우 즉 2.572에 가까운 것은 Liver Cirrhosis 군에 해당된다.



입력한 data에서의 실제 group(Actual Group, 입력한 값)과 판별함수를 이용하여 계산한 경우 예상되는 group(Predicted Group)을 보여주고 있으며, 각 case의 D값을 마지막 (Function 1)에 나타내고 있다.

** 표는 actual group과 predicted group간의 차이가 있는 경우를 의미한다. (예, 7번 case)


위의 판별함수 D로 계산을 한 결과

실제 Data의 Normal Liver (Original) 116명 중 109명은 Normal Liver 로, 7명은 Liver Cirrhosis로 예측되었다.

실제 Data의 Liver Cirrhosis (Original) 60명 중 3명은 Normal Liver 로, 57명은 Liver Cirrhosis로 예측되었다.

최종 결론:

프로그램이 자동으로 계산한 주요 변수들이 Liver Cirrhosis에 영향을 주는 판별함수는

D = -2.787 + (1.730*HBsAg) + (1.274*HCVAb) + (0.046*ALT) 이고,

이 판별함수는 94.3 %의 판별력을 가지고 있다.
결과예측
새로운 환자 2명이 왔다.

Age, Sex는 모르고(현실적으로는 있을 수 없는 일이지만, 통계의 예제를 위한 설정임), HBsAg, HCVAb, ALT에 대한 결과를 알고 있다.

과연 이 환자들은 초음파 검사에서 어떤 결과가 나올까?

이전에 입력한 data의 마지막에 해당 자료만을 입력하고 같은 방법으로 통계처리를 한다.

알고 있는 변수가 [Use stepwise method]방법에서 유의하게 나온 변수들이므로 방법은 [Use stepwise method]을 이용한다.


group을 입력하지 않은 경우 즉 ungrouped data는 missing data로 처리되어 판별분석에는 이용되지 않는다.

그러므로 나머지 결과들은 이전에 나온 결과와 같다. 즉 이전에 나온 판별함수를 이용한다는 의미이다.

위 결과 177번 case 에서 보면..

Actual Group = ungrouped (즉 입력당시 group을 입력하지 않았다는 의미이다.)

Predicted Group = 1 (이 case는 1 (Liver Cirrhosis) 에 해당한다는 의미이다. )

Function 1 = 0.879 (판별함수에 의하여 계산된 값)

178번 case도 같은 방식으로 해석한다.

이렇게 함으로서 이전의 data들의 결과에 따라서 새로운 data의 group을 예측할 수 있다.

이 환자들은 94.3% Liver Cirrhosis 가능성이 있다. (위의 결과에서 [Use stepwise method]에 의한 판별력이 94.3% 이므로)
유의사항2
[Enter independents together]와 [Use stepwise method] Method중에 어떤 방법을 써야 할까?

[Enter independents together]에 비해 [Use stepwise method]는 자동으로 변수의 채택여부를 통계적으로 분석하여 알려주므로 마치 좀 더 이론적인 것 처럼 보인다. 그러나 각각의 판별력을 볼 때 [Enter independents together]의 경우 94.9%, [Use stepwise method]의 경우 94.3%로 [Enter independents together]의 경우가 미미하지만 더 크다. 즉 모든 항목을 채택하여 종속변수를 설명하는 것이 더 좋다는 의미가 된다.

어떤 방법을 채택하느냐는 어디까지나 연구자의 의도에 따라서 이루어질 수 있으나, 연구자의 경험과 선행 연구 사례들을 분석하여 연관성이 있는 변수를 포함하는 것이 더 추천되는 방법이다. 그러나 연관성 자체의 경험이 부족하거나 이전의 사례들이 없는 경우에는 [Use stepwise method]방법을 채택하여 통계적으로 유의한 항목을 자동으로 반영하도록 하는 것도 좋을 것이다.
by Byung Gil Choi, MD, PhD.   cbg@catholic.ac.kr  Department of Radiology, College of Medicine, The Catholic University of Korea.