Survival Manual for Statistical Analysis
(통계분석 생존지침서)


by Byung Gil Choi, MD, PhD.
SPSS Multiple regression analysis (다중회귀분석, Multiple linear regression analysis, 다중선형회귀분석)
Multicollinearity (다중공선성)
개념
독립변수 n 개 (연속변수)
종속변수 1 개 (연속변수)

종속변수를 설명하는 독립변수가 2개 이상인 경우 이들의 관련성을 알고 그를 반영하는 수학 방정식(Y = B0 + B1X1 + B2X2 + B3X3 ... + BnXn)을 구하고자 하는 경우 (Simple regression analysis의 확장 개념).
예제
Age[X1], Stent Diameter(mm)[X2], Stent Cross Sectional Area (mm2)[X3], ALP(Al Phosphatase)[X4], AST(sGOT)[X5], ALT(sGPT)[X6], Total Bilirubin[X7]이 Stent Open Duration(days)[Y]에 영향을 주는가?

준다면 어떤 관련식이 성립되며, 어떤 변수가 영향을 주는 것인가? DownLoad multiple_regression_analysis.sav

(원면적(cross sectional area) = πr2 (π: 원주율, r: 반지름))
방법

1. Data 입력

age (Age)
diameter (Stent Diameter (mm))
area (Stent Cross Sectional Area (mm2)) [= 3.14 x (diameter/2)2]
ALP (ALP (Al Phosphatase))
AST (AST (sGOT))
ALT (ALT (sGPT))
TB (Total Bilirubin)
days (Stent Open Duration (days))

2. 선택

[MENU]-[Analyze]-[Regression]-[Linear]


3. 설정

[Dependent]에 종속변수를 [Independent]에 독립변수들을 넣는다.

[Method]에 [Enter]를 선택하는 경우

결과해석1을 참조할 것

[Method]에 [Stepwise]를 선택하는 경우

결과해석2를 참조할 것

[OK]를 누른다.
Multicollinearity (다중공선성) 확인
각각의 독립변수가 말 그대로 독립적으로 존재한다면 문제가 없으나, 서로 상당한 관련이 있는 경우 전체 통계에 영향을 미치게 된다.

그림에서 볼 수 있듯이 A vs. B, C는 연관성이 미미한데 반하여, B와 C는 매우 밀접한 관계를 가지고 있다.

그러므로 B와 C를 모두 통계에 반영하는 경우 비슷한 변수를 이중으로 반영하는 결과가 된다.

이런 경우 Data를 직접 확인하여 B와 C중에서 하나를 제거하여야 통계적인 오류를 줄일 수 있다.

위 예제에서 Stent Cross Sectional Area는 Stent Diameter를 근거로 계산된(πr2) 값으로 두 변수간에는 매우 밀접한 관계를 가지고 있다.



Multicollinearity를 확인하는 방법:

[Method]에 [Enter]를 선택하고 통계를 실행하여 나온 결과에서

[Coefficients] 표의 VIF (Variance Inflation Factor) 값이 통상적으로 10 이상인 경우 Multicollinearity가 있는 것으로 간주하고 해당 항목을 독립변수에서 제외한다.

이 경우 Stent Cross Sectional AreaStent Diameter에서 유래된 Data로 Stent Cross Sectional Area를 제외하는 것이 추천된다.

**Multicollinearity가 너무 심하여 (VIF = ∞) 거의 일치하는 변수가 있는 경우 해당 변수는 통계 실행시 자동으로 제거되기도 한다.

Multicollinearity를 해결하는 방법:

1. 해당변수의 갯수(n)을 늘린다.

2. Data를 검토하여 Multicollinearity를 보이는 변수중 1개를 제거한다. (저자 추천 방법)

3. Data를 검토하여 매우 연관성을 보이는 일부 Data를 삭제한다.

4. Data 입력과정의 오류가 있는지 확인한다.
결과해석1 by [Enter] Method
Multicollinearity 확인에서 문제가 된 Stent Cross Sectional Area를 통계에서 제외한 결과임.


[Enter] Method: 분석하고자 하는 모든 항목을 반영하고자 하는 경우 이용되는 방법

R Square (결정계수, r2) = 0.798 ... 79.8%의 설명력을 가지고 있다. (p=0.000 이므로 통계적으로 의미가 있다.)

즉, Age, Stent Diameter(mm), ALP(Al Phosphatase), AST(sGOT), ALT(sGPT), Total Bilirubin를 모두 이용하면 Stent Open Duration(days)을 79.8% 설명할 수 있고, 통계적으로 의미가 있다.

B0 = 164.475 (Constant에 대한 p=0.000)...상수
B1 = -0.205 (B1에 대한 p=0.002)...Age
B2 = -0.056 (B2에 대한 p=0.186)...Stent Diameter(mm)
B3 = -0.243 (B3에 대한 p=0.000)...ALP(Al Phosphatase)
B4 = -0.023 (B4에 대한 p=0.652)...AST(sGOT)
B5 = -0.341 (B5에 대한 p=0.029)...ALT(sGPT)
B6 = -1.491 (B6에 대한 p=0.188)...Total Bilirubin

즉,
Age, ALP(Al Phosphatase), ALT(sGPT) ... 통계적으로 의미가 있다.
Stent Diameter(mm), AST(sGOT), Total Bilirubin...통계적으로 의미가 없다.

결론은

6개의 변수로 Stent Open Duration을 79.8% 설명할 수 있고, 통계적으로 유의하다 (r2=0.798, p=0.000).

이를 반영하는 방정식은

Stent Open Duration =164.475-0.205*Age-0.056*Stent Diameter-0.243*ALP-0.023*AST-0.341*ALT-1.491*Total Bilirubin 이다.

VIF값은 모두 10 이하로 Multicollinearity가 없는 것을 확인할 수 있다.
결과해석2 by [Stepwise] Method
Multicollinearity 확인에서 문제가 된 Stent Cross Sectional Area를 통계에서 제외한 결과임.


[Stepwise] Method:

선택한 변수들을 각각 계산하여 통계적으로 가장 유의한 항목부터 차례로 대입하여 자동으로 채택할 변수들을 알려주고, 그들에 대한 통계값과 방정식을 계산한다.

내부적으로 이루어지는 단계는 다음과 같다.

앞서 실시한 [Enter] Method의 결과

Age (p=0.002)
Stent Diameter(p=0.186)
ALP (p=0.000)
AST (p=0.652)
ALT (p=0.029)
Total Bilirubin (p=0.188)

으로 ALP가 가장 통계적으로 의미가 있으며, 다음으로 Age, ALT 순으로 의미가 있는 것으로 나타났다.

그러므로 먼저
ALP를 변수로 채택하고 통계값들을 구하고,

다음에는
ALP + Age를 변수로 채택하여 통계값을 구하고

그 다음으로
ALP + Age + ALT

이런식으로 모든 경우의 수를 적용하여 그 중에 통계적으로 의미가 있는 최종 결과치를 보여주게 된다.

이 경우는 모든 경우에서 단지 ALP만이 의미가 있게 나타나 위와 같은 결과를 보여주게 되었다.

R Square (결정계수, r2) = 0.742 ... 74.2%의 설명력을 가지고 있다. (p=0.000 이므로 통계적으로 의미가 있다.)

즉, Age, Stent Diameter(mm), ALP(Al Phosphatase), AST(sGOT), ALT(sGPT), Total Bilirubin중에 통계적으로 유의한 것은 ALP이며,

이를 이용하면 Stent Open Duration(days)을 74.2%설명할 수 있고, 통계적으로 의미가 있다. 나머지는 통계적으로 의미가 없다.

B0 = 133.267 (Constant에 대한 p=0.000)...상수
B1 = -0.282 (B1에 대한 p=0.000)...ALP(Al Phosphatase)

결론은

6개의 변수를 통계적으로 가장 유의한 것부터 순차적으로 적용할 경우 ALP(Al Phosphatase)만 의미가 있다.

ALP(Al Phosphatase)로 Stent Open Duration을 74.2% 설명할 수 있고, 통계적으로 유의하다 (r2=0.742, p=0.000).

이를 반영하는 방정식은

Stent Open Duration =133.267-0.282*ALP 이다.
유의사항1
[Enter]와 [Stepwise] Method중에 어떤 방법을 써야 할까?

[Enter]에 비해 [Stepwise]는 자동으로 변수의 채택여부를 통계적으로 분석하여 알려주므로 마치 좀 더 이론적인 것 처럼 보인다. 그러나 각각의 R Square (결정계수, r2)값을 볼 때 [Enter]의 경우 0.798, [Stepwise]의 경우 0.742으로 [Enter]의 경우가 더 크다. 즉 모든 항목을 채택하여 종속변수를 설명하는 것이 더 좋다는 의미가 된다.

어떤 방법을 채택하느냐는 어디까지나 연구자의 의도에 따라서 이루어질 수 있으나, 연구자의 경험과 선행 연구 사례들을 분석하여 연관성이 있는 변수를 포함하는 것이 더 추천되는 방법이다. 그러나 연관성 자체의 경험이 부족하거나 이전의 사례들이 없는 경우에는 [stepwise]방법을 채택하여 통계적으로 유의한 항목을 자동으로 반영하도록 하는 것도 좋을 것이다.
유의사항2
최근 논문에서는 다른 방법을 쓰는 경우가 있어 이를 소개하고자 한다.

예를 들면 6개변수를 각각 독립적으로 [Simple regression analysis]를 시행한다.

1. 선택

[MENU]-[Analyze]-[Regression]-[Linear]

2. 설정

[Dependent]에 종속변수를, [Independent]에 독립변수 1개를 넣는다.

[OK]를 누른다.


3. Age에 대한 결과

위와 방법을 변수를 바꾸어가며 총 6번을 시행하여 결과를 보면 다음과 같다.

변수 r2 p value 설명
Age 0.072 0.035 유의하다.
Stent Diameter(mm) 0.029 0.183 유의하지 않다.
ALP(Al Phosphatase) 0.742 0.000 유의하다.
AST(sGOT) 0.160 0.001 유의하다.
ALT(sGPT) 0.144 0.002 유의하다.
Total Bilirubin 0.012 0.397 유의하지 않다.

1개의 변수를 독립적으로 [Simple regression analysis]을 시행한 결과

Stent Open Duration(days)에 유의하게 영향을 미치는 변수는 Age, ALP(Al Phosphatase), AST(sGOT), ALT(sGPT)로 4개이고,

유의하지 않은 변수는 Stent Diameter(mm), Total Bilirubin로 2개 이다.

이 결과를 토대로 유의하게 영향을 미치는 4개의 변수만 가지고

다시 위에 설명한 [Multiple regression analysis][Enter] method를 시행하면 다음과 같은 결과를 보게 된다.



Age, ALP(Al Phosphatase), AST(sGOT), ALT(sGPT) 총 4개의 변수가 적용되었고

r2=0.785, p=0.000

Stent Open Duration =157.630-0.172*Age-0.250*ALP-0.008*AST-0.404*ALT


정리하면

방법1. [Multiple regression analysis]-[Enter] method : r2=0.798, p=0.000 (적용변수 = 6개)

방법2. [Multiple regression analysis]-[Stepwise] method : r2=0.742, p=0.000 (적용변수 = 1개)

방법3. [Simple regression analysis 6번]-[Multiple regression analysis]-[Enter] method : r2=0.785, p=0.000 (적용변수 = 4개)

r2(설명력)의 관점에서 보면 방법1(0.798)>방법3(0.785)>방법2(0.742) 순이다.

3가지 방법을 채택하는 사유는 다음과 같다.

방법1: [조사한 모든 변수가 상당 부분 영향을 미칠 것이다]라는 경우 (전체 변수 사용)

방법2: [조사한 모든 변수가 어떤 영향을 미칠지 잘 모르겠다]라는 경우 (사용변수를 프로그램이 자동으로 결정)

방법3: [조사한 모든 변수가 어느 정도 영향을 미칠 것이나, 전혀 상관 없는 변수가 있을 수 있다]라는 경우 (사용변수를 연구자가 선택하여 결정)

채택 사유가 너무나 명백한 경우는 사실상 거의 없을 것이다.

그러므로 3가지 방법을 모두 시행하여 연구자가 원하는 자료를 사용하는 것을 권장한다.
by Byung Gil Choi, MD, PhD.   cbg@catholic.ac.kr  Department of Radiology, College of Medicine, The Catholic University of Korea.