Survival Manual for Statistical Analysis
(통계분석 생존지침서)


by Byung Gil Choi, MD, PhD.
SPSS Cox proportional hazard model (Cox 비례위험모형, Cox regression analysis, Cox 회귀분석)
개념
1. 상태를 나타내는 이분된 비연속변수 (event vs. censored)

2. 기간을 나타내는 변수 (survival time)

3. 기타 (group, stage, age.. 등 비연속변수 or 연속변수)

생존율에 영향을 주는 제3의 교란요인(Confounding factor)을 반영하고 이들의 영향력을 검정한다.

Logistic regression analysis와 survival rate의 개념을 혼합한 형태

LML curve가 cross 하지 않는 경우 즉, 제3의 교란요인들 각각이 연구기간중 일정한 영향력을 가진다는 전제조건이 성립되어야 한다.
예제
Lung ca.의 생존율에 영향을 주는 변수는 어떤 것이며, 각각의 odds ratio는 얼마인가 즉 사망율이 몇배나 증가하는가?

통계적으로 유의하게 영향을 주는 변수로 군을 나누어 Survival graph를 그려보고자 한다.

DownLoad Cox_proportional_hazard_model.sav
방법
1. Data 입력

age (Age)
sex (Sex, Male = 1, Female = 2)
stage (Lung ca. Stage, Stage I=1, Stage II=2, Stage III=3, Stage IV=4)
trial (Clinical Trial Type, Control = 0, A Type Trial = 1, B Type Trial = 2)
smoking (Smoking Hx., Negative = 0, Positive = 1)
time (Survival Time, 환자가 살아있는 기간, month)
status (Survival Status, Event = 0, Censored = 1)


2. 선택

[MENU]-[Analyze]-[Survival]-[Cox Regression]

3. 설정

[Time]에 Survival Time넣는다.

[Status]에 Survival Status를 넣고, [Define Event]를 누른다.


4. [Define Event]

[Single value]에 0을 입력하고 [Continue]를 누른다.

0의 의미는 status [Event=0, Censored=1]에서
event 즉 death를 의미한다.

예) 만일 status를
치료 전 사망 = 0, 치료 중 사망 = 1, 치료 후 사망 = 2, censored = 3
으로 나누어 입력하였고,

이들 중에 event로 간주하고 싶은 것은 0 - 2 사이 이다.

이런 경우는 [Range of values]에 0과 2를 입력한다.

5. 설정

[Covariates]에 age, sex, stage, trial, smoking를 넣고,

[Method]에 [Forward:conditional]를 선택한다.

[Categorical]을 누른다.

** [Method]에는 [Enter], [Forward:Conditional].. 등이 있는데.. 이는 Multiple regression analysis의 [Enter]와 [Stepwise]방법에 해당한다.

[Enter] : 연구자가 관련이 있다고 생각하는 변수를 모두 분석함.
[Forward:Conditional] : 프로그램이 자동으로 통계적으로 유의한 변수들만 이용하여 분석함.

어떤 방법을 채택하느냐는 어디까지나 연구자의 의도에 따라서 이루어질 수 있으나, 연구자의 경험과 선행 연구 사례들을 분석하여 연관성이 있는 변수를 포함하는 것이 더 추천되는 방법이다.

그러나 연관성 자체의 경험이 부족하거나 이전의 사례들이 없는 경우에는 [Forward:Conditional]방법을 채택하여 통계적으로 유의한 항목을 자동으로 반영하도록 하는 것도 좋을 것이다.
6. [Categorical Covariates]

좌측의 변수중에서 Categorical variable 즉 비연속변수에 해당하는 것을 선택하여 [Categorical Covariates]로 옮긴다.

옮긴 변수를 모두 선택하고 [Reference Category]를 [First]로 바꾸고, [Change]를 누른다.

이 부분을 어떻게 선택하느냐에 따라서 결과 해석에서 약간 혼돈이 올 수 있으므로 반드시 주의하여야 한다.

[Reference Category]가 [First]라는 의미는 비연속변수중에서 기준이 되는 값이 처음값이라는 의미이다.

예를 들면, Sex (1=Male, 2=Female)로 data를 입력한 경우 1, 즉 Male이 기준치가 된다는 의미로 2 ,즉 Female인 경우 1에 비해 몇 배나 더 위험도가 높은가를 알 수 있는 것이다.
반대로 [Last]를 선택하게 되면 마지막 값 (2=Famale)이 기준이 된다는 의미이다.
(결과 해석 부분 참조)

모든 비연속변수의 항목에 (first)가 나타났는지 확인하고,

[Continue]를 누른다.

7. 설정

[Plots]를 누른다.

8. [Plots]

[Survial], [Log minus Log]를 선택하고,

[Separate Lines for]에 trial을 넣는다.

[Continue]-[OK]를 누른다.

*** Survival Graph를 구분하고자 하는 변수를 [Separate Lines for]에 넣는다.

이 경우는 trial (Clinical Trial Type, Control = 0, A Type Trial = 1, B Type Trial = 2)

즉, Control, A Type Trial, B Type Trial로 구분하여 3개의 Survival Graph가 그려진다.

만일 Male과 Female을 나누어 2개의 graph를 그리고자 한다면,

[Separate Lines for]에 sex를 넣는다.
결과해석
[Categorical Variables Codings]를 보면 변수중에서 Categorical variables 즉 비연속변수(sex, stage, trial, smokin)들을 보여준다.

그리고 각각을 SPSS나름대로 분류를 하였다는 것도 보여주는데,

이 경우를 예를 들면,

sex(1) = Femal
(Male) 항목은 구분이 되어 있지 않다. 이는 이 항목이 기준점(reference)라는 것을 의미한다.

stage(1) = Stage II
stage(2) = Stage III
stage(3) = Stage IV
(Stage I) 항목은 구분이 되어 있지 않다. 이는 이 항목이 기준점(reference)라는 것을 의미한다.

trial(1) = A Type Trial
trial(2) = B Type Trial
(Control) 항목은 구분이 되어 있지 않다. 이는 이 항목이 기준점(reference)라는 것을 의미한다.

이것은 방법중에서 [Categorical Variables]부분에 [Reference Category]를 [First]로 한 결과이다. 만일 [Last]를 선택하였다면 반대의 순서가 되므로 유의하여야 한다.

다음으로 넘어간다.


[Omnibus Tests of Model Coefficients]를 보면

Step 1: trial을 적용하였고, p=0.000으로 유의하다.
Step 2: trial, sex을 적용하였고, p=0.000으로 유의하다.
Step 3: trial, sex, smoking을 적용하였고, p=0.000으로 유의하다.

즉, 프로그램이 자동으로 분석한 결과 위의 3가지(trial, sex, smoking) 변수가 생존율에 영향을 미치는 risk factor라는 의미이다.


최종 결론이 되는 표는 [Variables in the Equation]의 Step 3 이다.

sex B = -1.156 (-)값을 가지므로 reference즉 [Male]에 비해 사망율이 낮아진다는 의미
p = 0.041 0.05보다 작으므로 사망율에 유의한 영향을 준다는 의미
Exp(B) = 0.315 [Female]은 reference 즉 [Male]에 비해 사망률이 0.315 배로 감소한다는 의미
Trial B = Trial의 경우 3개이상의 분류로 되어 있으므로 다음줄에 있는 각각의 항목으로 표시된다.
p = 0.000 0.05보다 작으므로 사망율에 유의한 영향을 준다는 의미
Trial에는 3개 분류가 있는데 이들 모두 통틀어서 유의한 영향을 준다는 의미
Exp(B) = Trial의 경우 3개이상의 분류로 되어 있으므로 다음줄에 있는 각각의 항목으로 표시된다.
Trial(1) B = -1.553 (-)값을 가지므로 reference 즉 [Control]에 비해 사망율이 낮아진다는 의미
p = 0.016 0.05보다 작으므로 사망율에 유의한 영향을 준다는 의미
Exp(B) =0.212 Trial(1) 즉 [A Type Trial]은 reference 즉 [Control]에 비해 사망률이 0.212배로 감소한다는 의미
Trial(2) B = -2.861 (-)값을 가지므로 reference즉 [Control]에 비해 사망율이 낮아진다는 의미
p = 0.000 0.05보다 작으므로 사망율에 유의한 영향을 준다는 의미
Exp(B) =0.057 Trial(2) 즉 [A Type Trial]는 reference 즉 [Control]에 비해 사망률이 0.057배로 감소한다는의미
smoking B = 1.166 (+)값을 가지므로 reference즉 [Negative]에 비해 사망율이 높아진다는 의미
p = 0.048 0.05보다 작으므로 사망율에 유의한 영향을 준다는 의미
Exp(B) = 3.210 [Positive]는 reference 즉 [Negative]에 비해 사망률이 3.210배로 증가한다는 의미

***간혹 이 표에서 p value가 0.05보다 큰 경우가 있는데,
이미 위에서 해당 변수들이 모두 반영되는경우 유의하게 영향을 미친다는 것이 증명이 된 상황이므로 신경쓰지 않아도 된다.


Exp(B) : Odds ratio [교차비, Prob(Event)]를 의미하며, 위험도가 몇배 증가하는 것인지를 의미한다.

Exp(B) < 1 : 위험도가 감소한다는 의미 (이때 B값은 (-)이다)
Exp(B) = 1 : 변화없다는 의미
Exp(B) > 1 : 위험도가 증가한다는 의미 (이때 B값은 (+)이다)

다음으로 넘어간다.

Overall Survival Graph

trial (Clinical Trial Type, Control = 0, A Type Trial = 1, B Type Trial = 2)의 구분에 따른 각각의 Survival Graph를 보여준다.

다음으로 넘어간다.

Log minus Log(LML) curve를 보여주며,

모두 평행을 이루면서 서로 만나지 않은 것을 볼 수 있다.

이렇게 서로 cross하지 않는 경우 Cox proportional hazard model의 적용이 합당하다는 것을 의미한다.



만일 이 그래프가 서로 cross 하는 경우에는 trial이 시간이 경과함에 따라서 사망율에 다른 영향력을 미치고 있다는 의미가 되므로,

[Time-dependent Cox regression analysis]를 적용하여야 한다.
유의사항1
Censored data (불확실한 자료)로 처리하여야 하는 경우

1. loss to follow up: 환자의 추적이 불가능한 경우 (이사)

2. drop out: 환자의 치료 거부 또는 중단 (민간요법으로 전환)

3. termination of study: 환자가 사망하기 전에 연구가 종료되는 경우

4. death from unrelated cause: 관련이 없는 이유로 사망한 경우 (교통사고로 사망)

예를 들면 연구에 대상이 되는 질병으로 사망한 경우만을 event로 처리한다.

조사하고자 하는 것과 무관하게 Event가 일어난 경우는 모두 Censored data로 처리 하여야 함.
유의사항2
방법1. [Enter] method : 연구자가 원하는 모든 변수을 포함시켜 실행하는 것이므로 연구자의 의도를 반영할 수 있으나, 아무런 필요가 없거나, 오히려 통계적 의미를 훼손할 수 있는 변수가 포함될 수도 있다.

방법2. [Forward:Conditional] method : 프로그램이 자동으로 유의한 변수들만 적용하여 실행하는 방식이므로 이상적인 방법이라 생각할 수 있으나, 상황에 따라서는 그렇지 못한 경우도 있다.

방법3. 각각을 실행하고 유의한 변수만 모아 [Enter] method : 연구자가 수집한 변수들이 의미가 있을지 없을지를 모르는 경우 일단 독립적인 실행을 통하여 찾은 유의한 변수를 모두 반영할 수 있다.

방법4. 각각을 실행하고 유의한 변수만 모아 [Forward:Conditional] method : 찾은 유의한 변수중에서 프로그램이 자동으로 유의한 순으로 적용하여 필요없는 변수를 제외하게 된다.

이 예제에서는 비교적 일정한 결과를 보여 주었지만, 상황에 따라서는 상당히 다른 결과를 보여 줄 수 있다.

그러므로 4가지 방법 모두를 실행하여 연구자가 원하는 자료를 사용하는 것을 권장한다.
Link Logistic regression analysis -[유의사항1] 참조
유의사항3
Odds ratio와 Relative ratio는 서로 의미하는 바도 다르고, 나타내는 방정식 또한 다르다.

Gold standard(+) Gold standard(-) Subtotal
Finding(+) TP(true positive) FP(false positive) TP+FP
Finding(-) FN(false negative) TN(true negative) FN+TN
Subtotal TP+FN FP+TN TP+FP+FN+TN

Odds ratio (교차비) = , Gold standard(+)가 Gold standard(-)에 비해 몇 배나 Finding (+)를 가지고 있는가에 대한 확률

Relative risk (상대위험도) = , Finding(+)는 Finding(-)에 비해 몇 배나 Gold standard(+)일 가능성이 있는가에 대한 확률

그러나 가끔 이를 혼용하여 사용하는 경우가 있는데.. 주로 의학분야에서 그러하다.

그 이유는 의학분야에서의 질병이란 전체 집단에서 차지하는 발생율이 극히 낮으므로 방정식으로 어떤 것을 무시하고 이러 저러한 복잡한 수학적 과정을 거치면 결국은 odds ratio 와 relative ratio 의 방정식이 같아진다는 이론이다.

그러므로 꼭 두가지를 따로 표현해야 하는 경우(2 x 2 table)를 제외하고는 혼용되는 경우가 있음을 알아둘 필요가 있다.

여기서는 그 의미가 혼용된 상태이고, odds ratio를 상대위험도로 이해를 하면 된다.
유의사항4

[Cox proportional hazard model]을 실행하는 경우 간혹 이런 경고문이 나오면서 통계를 거부하는 듯한 결과가 나와 당황스럽게 된다.

이런 경우는 변수중에 하나가 계산이 안되는 경우 나타나는 문제이며, 해결방법은 삽입한 변수를 하나씩 제거하면서 여러번 실행을 한다.

하나씩 제거하다 보면 어느 순간 위와 같은 경고문이 사라지게 되는데, 이때 제거된 변수가 말썽이 되는 변수이다.

예를 들면,

[5. 설정]에서 [Covariates]에 age, sex, stage, trial, smoking를 넣고, 실행하였는데 위과 같은 문제가 나타난다면

일단 age를 [Covariates]에서 제거하고 다시 시행한다.

또 나타난다면 이번에는 sex를 제거하고 다시 시행한다.

그랬더니 경고문이 사라졌다.

변수 sex가 문제시 되는 변수가 되므로 총 5개 변수중 sex를 제외한 나머지 변수(age, stage, trial, smoking)들을 이용하여 실행한다.
by Byung Gil Choi, MD, PhD.   cbg@catholic.ac.kr  Department of Radiology, College of Medicine, The Catholic University of Korea.