Survival Manual for Statistical Analysis
(통계분석 생존지침서)


by Byung Gil Choi, MD, PhD.
SPSS Logistic regression analysis (로지스틱 회귀분석)
개념
독립변수 n 개 (연속변수 or 비연속변수)
종속변수 1 개 (이분된 비연속변수) ... [있다/없다] [+/-] [지방간/정상] [앞/뒤] 등과 같이 반드시 이분된 변수이어야 한다.



Z = B0 + B1X1 + B2X2 + B3X3 ... + BnXn

독립변수 (X) 들에 의해서 (Z)의 값이 변화하고 이 (Z)는 최종적으로 Event가 일어날 확률 즉, Prob(Event) 에 영향을 주는 지수로서 역할을 한다.

정리하면

어떤 요인(독립변수)들이 질병(종속변수)의 위험요소(Risk factor)이며, 이들은 얼마만큼의 영향을 끼치는가(Odds ratio)를 알아보고자 하는 경우이다.
예제
Age, Sex, HBsAg, HBsAb, HCVAb, AST(sGOT), ALT(sGPT) 중에 초음파 검사에서 Liver chirrhosis로 진단될 위험요소는 어떤 것이며,

이들 위험요소의 Odd ratio는 얼마인가? DownLoad logistic_regression_analysis.sav
방법
1. Data 입력

독립변수 연속변수 Age
AST
ALT
비연속변수 Sex (Male = 1, Female = 2)
HBsAg (Negative = 0, Positive = 1)
HBsAb (Negative = 0, Positive = 1)
HCVAb (Negative = 0, Positive = 1)
종속변수 이분된 비연속변수 US (Normal liver = 0, Liver cirrhosis = 1)

2. 선택

[MENU]-[Analyze]-[Regression]-[Binary Logistic]


3. 설정

[Dependent]에 종속변수를 넣고, [Covariates]에 독립변수를 넣는다.

[Method]에 [Enter]를 선택하는 경우

결과해석1을 참조할 것

[Method]에 [Forward:Conditional]를 선택하는 경우

결과해석2를 참조할 것

[Categorical]를 누른다.
** [Method]에는 [Enter], [Forward:Conditional].. 등이 있는데.. 이는 Multiple regression analysis의 [Enter]와 [Stepwise]방법에 해당한다.

[Enter] : 연구자가 관련이 있다고 생각하는 변수를 모두 분석함.
[Forward:Conditional] : 프로그램이 자동으로 통계적으로 유의한 변수들만 이용하여 분석함.

어떤 방법을 채택하느냐는 어디까지나 연구자의 의도에 따라서 이루어질 수 있으나, 연구자의 경험과 선행 연구 사례들을 분석하여 연관성이 있는 변수를 포함하는 것이 더 추천되는 방법이다.

그러나 연관성 자체의 경험이 부족하거나 이전의 사례들이 없는 경우에는 [Forward:Conditional]방법을 채택하여 통계적으로 유의한 항목을 자동으로 반영하도록 하는 것도 좋을 것이다.
4. [Categorical Variables]

독립변수중에서 Categorical variable

즉 비연속변수에 해당하는 것을 선택하여

[Categorical Covariates]로 옮긴다.

5. [Categorical Variables]

[Reference Categoty]에서 [First]를 선택하고, [Change]를 누른다.

이 부분을 어떻게 선택하느냐에 따라서 결과 해석에서 약간 혼돈이 올 수 있으므로 반드시 주의하여야 한다.

[Reference Category]가 [First]라는 의미는 비연속변수중에서 기준이 되는 값이 처음값이라는 의미이다.

예를 들면,
Sex (Male = 1, Female = 2)로 data를 입력한 경우 1, 즉 Male이 기준치가 된다는 의미로 2 ,즉 Female인 경우 1에 비해 몇 배나 더 위험도가 높은가를 알 수 있는 것이다.
반대로 [Last]를 선택하게 되면 마지막 값 (Famale = 2)이 기준이 된다는 의미이다.
(결과 해석 부분 참조)

모든 비연속변수의 항목에 (first)가 나타났는지 확인한다.

[Continue]-[OK]를 누른다.

결과해석1 by [Enter] Method
[Enter] Method: 분석하고자 하는 모든 항목을 반영하고자 하는 경우 이용되는 방법

[Categorical Variables Codings]를 보면 독립변수중에서 Categorical variables 즉 비연속변수(Sex, HBsAg, HBsAb, HCVAb)들을 보여준다.

HCVAb를 예로 들면
Data입력시 HCVAb (Negative = 0, Positive = 1)로 입력하였으므로
작은값 (처음값, 이 경우는 0을 의미한다)이 기준이 된다.

HCVAb = 0 ... 기준값
HCVAb = 1을 HCVab(1)로 표기한다는 의미이다.

HCVAb(1) = Positive
HBsAb(1) = Positive
HBsAg(1) = Positive
Sex(1) = Female

다른 예로 Glucose (- = 0, + = 1, ++ = 2. +++ = 3) 이렇게 4가지로 나누어 data를 입력한 경우이면,

기준점 = -
Glucose(1) = +
Glucose(2) = ++
Glucose(3) = +++
를 의미하게 된다.

이것은 방법중에서 [Categorical Variables]부분에 [Reference Category]를 [First]로 한 결과이다. 만일 [Last]를 선택하였다면 반대의 순서가 되므로 유의하여야 한다.

다음으로 넘어간다.


[Variables in the Equation] 표에서
B [개념]에서 보았듯이 독립변수에 대한 기울기를 나타내는 상수값(B0,B1,B2 ...)을 의미한다.

(-)인 경우는 독립변수가 증가할수록 종속변수의 위험도가 감소함을 의미하고
(+)값을 갖는 경우는 종속변수의 위험도가 증가하는 것을 의미한다.

Z = B0 + B1X1 + B2X2 + B3X3 ... + BnXn
Sig. p value를 의미한다. 0.05보다 작은 경우 해당 독립변수가 종속변수에 유의하게 영향을 미친다는 의미이다.
Exp(B) Odds ratio [교차비, Prob(Event)]를 의미하며, 종속변수의 위험도가 몇 배 증가하는 것인지를 의미한다.



독립변수가 연속변수(예: ALT)인 경우 Exp(B)의 값은 ALT가 1 증가할 때의 Odds ratio를 의미한다.

독립변수가 비연속변수(예: HBsAg)인 경우 Exp(B)는 한 단계(Negative에서 Positive로) 증가할 때의 Odds ratio를 의미한다.

Exp(B) < 1 : 위험도가 감소한다는 의미 (이때 B값은 (-)이다)
Exp(B) = 1 : 변화없다는 의미
Exp(B) > 1 : 위험도가 증가한다는 의미 (이때 B값은 (+)이다)


마지막표가 결과에서 가장 중요하고 모든 것이 요약이 되어 있는 부분이다.
Age B = 0.032 (+)값, Age가 증가할수록 Liver cirrhosis의 발생 위험도가 증가.
p = 0.500 > 0.05, 통계적으로 유의하지 않다.
Exp(B) = 1.032 Age가 1증가할 때 Liver cirrhosis 발생 위험도는 1.032배 즉, 증가.
Sex(1) B = -0.817 (-)값, Sex(1)[Female]은 reference[Male]에 비해 Liver cirrhosis의 발생 위험도가 감소.
p = 0.393 > 0.05, 통계적으로 유의하지 않다.
Exp(B) = 0.171 Sex(1)[Female]은 reference[Male]에 비해 Liver cirrhosis의 발생 위험도가 0.171배 즉, 감소.
HBsAg(1) B = 2.524 (+)값, HBsAg(1)[Positive]은 reference[Negative]에 비해 Liver cirrhosis의 발생 위험도가 증가.
p = 0.021 < 0.05, 통계적으로 유의하다.
Exp(B) = 12.476 HBsAg(1)[Positive]은 reference[Negative]에 비해 Liver cirrhosis의 발생 위험도가 12.476배 즉, 증가.
HBsAb(1) B = - 0.130 (-)값, HBsAb(1)[Positive]은 reference[Negative]에 비해 Liver cirrhosis의 발생 위험도가 감소.
p = 0.897 > 0.05, 통계적으로 유의하지 않다.
Exp(B) = 0 .878 HBsAb(1)[Positive]은 reference[Negative]에 비해 Liver cirrhosis의 발생 위험도가 0.878배 즉, 감소.
HCVAb(1) B = 3.011 (+)값, HCVAb(1)[Positive]은 reference[Negative]에 비해 Liver cirrhosis의 발생 위험도가 증가.
p = 0.005 < 0.05, 통계적으로 유의하다.
Exp(B) = 20.308 HCVAb(1)[Positive]은 reference[Negative]에 비해 Liver cirrhosis의 발생 위험도가 20.308배 즉, 증가.
AST B = - 0.005 (-)값, AST가 증가할수록 Liver cirrhosis의 발생 위험도가 감소.
p = 0.850 > 0.05,통계적으로 유의하지 않다.
Exp(B) = 0.995 AST가 1증가할 때 Liver cirrhosis 발생 위험도는 0.995배 즉, 감소.
ALT B = 0.222 (+)값, ALT가 증가할수록 Liver cirrhosis의 발생 위험도가 증가.
p = 0.001 < 0.05, 통계적으로 유의하다.
Exp(B) = 1.248 ALT가 1증가할 때 Liver cirrhosis 발생 위험도는 1.248배 즉, 증가.
*** Exp(B)는 연속변수인 경우는 비연속변수와 달리 1 증가시의 위험도 증감을 나타낸다.
결과해석2 by [Forward:Conditional] Method
[Forward:Conditional] Method:

선택한 변수들을 각각 계산하여 통계적으로 가장 유의한 항목부터 차례로 대입하여 자동으로 채택할 변수들을 알려주고, 그들에 대한 통계값을 계산한다.


이 부분은 [결과해석1]을 참조한다.


[Variables in the Equation] 표에서

[Step 3]가 최종 결과이다.

해석방법은 [결과해석1]과 같다.
HBsAg(1) B = 2.230
p = 0.018
Exp(B) = 9.298
HCVAb(1) B = 3.100
p = 0.002
Exp(B) = 22.202
ALT B = 0.217
p = 0.001
Exp(B) = 1.243
유의사항1
최근 논문에서는 다른 방법을 쓰는 경우가 있어 이를 소개하고자 한다.

예를 들면 7개변수를 각각 독립적으로 [Logistic regression analysis]를 시행한다.
이렇게 7번 반복한 결과는 다음과 같다






7번을 반복하여 얻은 결과를 살펴보면, 총 4개의 유의한 변수를 찾을 수 있다.

Age p = 0.204
Sex p = 0.607
HBsAg p = 0.000
HBsAb p = 0.994
HCVAb p = 0.000
AST p = 0.000
ALT p = 0.000



이 4개의 변수를 한꺼번에 넣고 다시 [Enter] Method로 실행하면 다음과 같은 결과를 볼 수 있다.



이 4개의 변수를 한꺼번에 넣고 다시 [Forward:Conditional] Method로 실행하면 다음과 같은 결과를 볼 수 있다.


유의사항2
방법1. [Enter] method : 연구자가 원하는 모든 변수을 포함시켜 실행하는 것이므로 연구자의 의도를 반영할 수 있으나, 아무런 필요가 없거나, 오히려 통계적 의미를 훼손할 수 있는 변수가 포함될 수도 있다.

방법2. [Forward:Conditional] method : 프로그램이 자동으로 유의한 변수들만 적용하여 실행하는 방식이므로 이상적인 방법이라 생각할 수 있으나, 상황에 따라서는 그렇지 못한 경우도 있다.

방법3. 각각을 실행하고 유의한 변수만 모아 [Enter] method : 연구자가 수집한 변수들이 의미가 있을지 없을지를 모르는 경우 일단 독립적인 실행을 통하여 찾은 유의한 변수를 모두 반영할 수 있다.

방법4. 각각을 실행하고 유의한 변수만 모아 [Forward:Conditional] method : 찾은 유의한 변수중에서 프로그램이 자동으로 유의한 순으로 적용하여 필요없는 변수를 제외하게 된다.

이 예제에서는 비교적 일정한 결과를 보여 주었지만, 상황에 따라서는 상당히 다른 결과를 보여 줄 수 있다.

그러므로 4가지 방법 모두를 실행하여 연구자가 원하는 자료를 사용하는 것을 권장한다.
유의사항3
Odds ratio와 Relative ratio는 서로 의미하는 바도 다르고, 나타내는 방정식 또한 다르다.

Gold standard(+) Gold standard(-) Subtotal
Finding(+) TP(true positive) FP(false positive) TP+FP
Finding(-) FN(false negative) TN(true negative) FN+TN
Subtotal TP+FN FP+TN TP+FP+FN+TN

Odds ratio (교차비) = , Gold standard(+)가 Gold standard(-)에 비해 몇 배나 Finding (+)를 가지고 있는가에 대한 확률

Relative risk (상대위험도) = , Finding(+)는 Finding(-)에 비해 몇 배나 Gold standard(+)일 가능성이 있는가에 대한 확률

그러나 가끔 이를 혼용하여 사용하는 경우가 있는데.. 주로 의학분야에서 그러하다.

그 이유는 의학분야에서의 질병이란 전체 집단에서 차지하는 발생율이 극히 낮으므로 방정식으로 어떤 것을 무시하고 이러 저러한 복잡한 수학적 과정을 거치면 결국은 odds ratio 와 relative ratio 의 방정식이 같아진다는 이론이다.

그러므로 꼭 두가지를 따로 표현해야 하는 경우(2 x 2 table)를 제외하고는 혼용되는 경우가 있음을 알아둘 필요가 있다.

여기서는 그 의미가 혼용된 상태이고, odds ratio를 상대위험도로 이해를 하면 된다.
유의사항4


[Enter] method를 실행하는 경우 간혹 이런 메시지가 나오면서 통계를 거부하는 결과가 나와 당황스럽게 된다.

이런 경우는 data의 갯수가 적은 경우 예를 들면 HSbAg = Negative가 100개 인데, HSbAg = Positive가 3개 인 경우와 같이 한 변수의 값을 포함하는 data의 수가 작은 경우 나타나는 현상이다.

이런 경우는 [Forward:Conditional] method를 사용하게 된다.

그래도 안되는 경우에는 data를 보강하는 것이 가장 이상적인 방법이지만, 현실적으로 의학 통계는 이러한 것이 불가능 한 경우가 많을 것이다.

최후의 방법으로 [방법3][Enter] method 직전까지의 결과 즉, 각각을 독립적으로 실행한 결과를 기술 하는 것도 하나의 편법이 될 수 있다.
by Byung Gil Choi, MD, PhD.   cbg@catholic.ac.kr  Department of Radiology, College of Medicine, The Catholic University of Korea.