Survival Manual for Statistical Analysis
(통계분석 생존지침서)


by Byung Gil Choi, MD, PhD.
SPSS Time-dependent Cox regression analysis
개념
전체적인 개념은 Cox proportional hazard model과 같으나, 해당 기간중 위험요소가 시간에 따라 일정한 영향력을 갖지 못하는 경우에 응용된다.

그러므로 먼저 Cox proportional hazard model로 분석하여, LML curve가 cross하는 경우

즉, Cox proportional hazard model의 전제조건이 만족되는 않는 경우 이용한다.
예제
Lung ca.의 생존율에 영향을 주는 변수는 어떤 것이며, 각각의 odds ratio는 얼마인가 즉 사망율이 몇배나 증가하는가?

DownLoad Cox_regression_time_dependent.sav
방법
1. Data 입력

age (Age)

sex (Sex, Male = 1, Female = 2)

trial (Clinical Trial Type, A Type Trial = 1, B Type Trial = 2)

time (Survival Time, 환자가 살아있는 기간, month)

status (Survival Status, Event=0, Censored=1)


위와 같은 Data를 입력한 후 Link Cox proportional hazard model의 [Enter]Method로 분석한 결과

[Omnibus Tests of Model Coefficients]표에서 Overall p=0.313으로 전체적으로 유의하지 않은 결과가 나왔다.

즉, 생존율에 영향을 주는 변수가 없다는 의미이다.

[Variables in Equation]표에서

sex: p=0.312
age: p=0.097
trial: p=0.706

으로 각 변수들을 따로 구분한 결과 역시 유의하지 않았다.

A Type Trial과 B Type Trial의 Survival Graph를 보여 주며,

한눈에 보아도 거의 유의한 차이가 없어 보인다.

2가지 Clinical Trial Type에 따른 LML curve가 서로 여러곳에서 cross함을 볼 수 있다.

이는 Cox proportional hazard model의 전제조건 (위험요소가 해당 기간중 일정한 영향력을 보인다)에 위배되므로

Time-dependent Cox regression analysis를 실시하여야 함을 알 수 있다.

2. 선택

[MENU]-[Analyze]-[Survival]-[Cox w/Time-Dep Cov]

3. 설정

[Expression for T_COV_]에 Time[T_]를 넣고, [Model]을 누른다.

T_ 는 입력한 data가 아니고 이 방법을 선택하는 경우 자동으로 나타난다.

4. 설정

[Time]에 Survival Time넣는다.

[Status]에 Survival Status를 넣고,

[Define Event]를 누른다.

5. [Define Event]

[Single value]에 0을 입력하고 [Continue]를 누른다.

0의 의미는 status [Event=0, Censored=1]에서 event 즉 death를 의미한다.

예) 만일 status를 치료 전 사망 = 0, 치료 중 사망 = 1, 치료 후 사망 = 2,
censored = 3 으로 나누어 입력하였고,

이들 중에 event로 간주하고 싶은 것은 0 - 2 사이 이다.

이런 경우는 [Range of values]에 0과 2를 입력한다.

6. 설정

T_COV_와 treat를 동시에 선택하고, (Ctrl Key를 누른채 2개의 변수를 선택)

[>a*b>]를 누른다.


7. 설정

[Covariates]에 sex, age, trial를 추가하고,

[Method]에 [Enter]를 선택하고,

[Categorical]을 누른다.
** [Method]에는 [Enter], [Forward:Conditional].. 등이 있는데.. 이는 Multiple regression analysis의 [Enter]와 [Stepwise]방법에 해당한다.

[Enter] : 연구자가 관련이 있다고 생각하는 변수를 모두 분석함.
[Forward:Conditional] : 프로그램이 자동으로 통계적으로 유의한 변수들만 이용하여 분석함.

어떤 방법을 채택하느냐는 어디까지나 연구자의 의도에 따라서 이루어질 수 있으나, 연구자의 경험과 선행 연구 사례들을 분석하여 연관성이 있는 변수를 포함하는 것이 더 추천되는 방법이다.

그러나 연관성 자체의 경험이 부족하거나 이전의 사례들이 없는 경우에는 [Forward:Conditional]방법을 채택하여 통계적으로 유의한 항목을 자동으로 반영하도록 하는 것도 좋을 것이다.
8. [Categorical Covariates]

좌측의 변수중에서 Categorical variable 즉 비연속변수에 해당하는 것을 선택하여 [Categorical Covariates]로 옮긴다. (단 T_COV_는 연속변수이므로 당연히 제외)

옮긴 변수를 모두 선택하고 [Reference Category]를 [First]로 바꾸고, [Change]를 누른다.

이 부분을 어떻게 선택하느냐에 따라서 결과 해석에서 약간 혼돈이 올 수 있으므로 반드시 주의하여야 한다.

[Reference Category]가 [First]라는 의미는 비연속변수중에서 기준이 되는 값이 처음값이라는 의미이다.

예를 들면
Sex (1=Male, 2=Female)로 data를 입력한 경우 1, 즉 Male이 기준치가 된다는 의미로 2 ,즉 Female인 경우 1에 비해 몇 배나 더 위험도가 높은가를 알 수 있는 것이다. 반대로 [Last]를 선택하게 되면 마지막 값 (2=Female)이 기준이 된다는 의미이다. (결과 해석 부분 참조)


모든 비연속변수의 항목에 (first)가 나타났는지 확인하고,

[Continue]-[OK]를 누른다.
결과해석
[Categorical Variables Codings]를 보면 변수중에서 Categorical variables 즉 비연속변수(sex, trial)들을 보여준다.

그리고 각각을 SPSS나름대로 분류를 하였다는 것도 보여주는데,

이 경우를 예를 들면,

sex(1) = Female

(Male) 항목은 구분이 되어 있지 않다. 이는 이 항목이 기준점(reference)라는 것을 의미한다.

trial(1) = B Type Trial

(A Type Trial) 항목은 구분이 되어 있지 않다. 이는 이 항목이 기준점(reference)라는 것을 의미한다.

이것은 방법중에서 [Categorical Variables]부분에 [Reference Category]를 [First]로 한 결과이다.

만일 [Last]를 선택하였다면 반대의 순서가 되므로 유의하여야 한다.

두 번째 표에서 보면 p=0.010로 [Enter] Method에 대한 방법이 통계적으로 적절하다는 결과를 볼 수 있다.

[Variables in the Equation]를 최종적으로 참조하여야 한다.

sex B = 0.278 (+)값을 가지므로 reference즉 [Male]에 비해 사망율이 증가한다는 의미
p = 0.290 0.05보다 크므로 사망율에 유의한 영향을 주지 않는다는 의미
Exp(B) = 1.321 [Female]은 reference 즉 [Male]에 비해 사망률이 1.321 배로 증가한다는 의미
age B = 0.014 (+)값을 가지므로 나이가 한 살 증가할수록 사망률이 증가한다는 의미
p = 0.054 0.05보다 크므로 사망율에 유의한 영향을 주지 않는다는 의미
Exp(B) = 1.014 나이가 한 살 늘어날 때마다 사망율이 1.014배로 증가한다는 의미
(연속변수인 경우는 비연속변수와 달리 1 증가시의 위험도 증감을 나타낸다.)
Trial B = -2.437 (-)값을 가지므로 reference 즉 [A Type Triall]에 비해 사망율이 낮아진다는 의미
p = 0.005 0.05보다 작으므로 사망율에 유의한 영향을 준다는 의미
Exp(B) =0.087 [B Type Trial]은 reference 즉 [A Type Trial]]에 비해 사망률이 0.087배로 감소한다는 의미
T_COV_*trial B = 0.065 참조 수치
p = 0.002 0.05보다 작으므로 시간의 차이를 보완한 Trial이 사망률에 유의한 영향을 준다는 의미.
즉 시간이 경과함에 따라서 Trial의 영향력이 차이가 있다라는 의미
Exp(B) = 1.067 참조 수치

*** 이 표에서 p value가 0.05보다 큰 경우가 있는데, 이미 위에서 해당 변수들이 모두 반영되는경우 유의하게 영향을 미친다는 것이 증명이 된 상황이므로 신경쓰지 않아도 된다.

Exp(B) : Odds ratio [교차비, Prob(Event)]를 의미하며, 위험도가 몇배 증가하는 것인지를 의미한다.

Exp(B) < 1 : 위험도가 감소한다는 의미 (이때 B값은 (-)이다)
Exp(B) = 1 : 변화없다는 의미
Exp(B) > 1 : 위험도가 증가한다는 의미 (이때 B값은 (+)이다)
유의사항1
Censored data (불확실한 자료)로 처리하여야 하는 경우

1. loss to follow up: 환자의 추적이 불가능한 경우 (이사)

2. drop out: 환자의 치료 거부 또는 중단 (민간요법으로 전환)

3. termination of study: 환자가 사망하기 전에 연구가 종료되는 경우

4. death from unrelated cause: 관련이 없는 이유로 사망한 경우 (교통사고로 사망)

예를 들면 연구에 대상이 되는 질병으로 사망한 경우만을 event로 처리한다.

조사하고자 하는 것과 무관하게 Event가 일어난 경우는 모두 Censored data로 처리 하여야 함.
유의사항2
방법1. [Enter] method : 연구자가 원하는 모든 변수을 포함시켜 실행하는 것이므로 연구자의 의도를 반영할 수 있으나, 아무런 필요가 없거나, 오히려 통계적 의미를 훼손할 수 있는 변수가 포함될 수도 있다.

방법2. [Forward:Conditional] method : 프로그램이 자동으로 유의한 변수들만 적용하여 실행하는 방식이므로 이상적인 방법이라 생각할 수 있으나, 상황에 따라서는 그렇지 못한 경우도 있다.

방법3. 각각을 실행하고 유의한 변수만 모아 [Enter] method : 연구자가 수집한 변수들이 의미가 있을지 없을지를 모르는 경우 일단 독립적인 실행을 통하여 찾은 유의한 변수를 모두 반영할 수 있다.

방법4. 각각을 실행하고 유의한 변수만 모아 [Forward:Conditional] method : 찾은 유의한 변수중에서 프로그램이 자동으로 유의한 순으로 적용하여 필요없는 변수를 제외하게 된다.

이 예제에서는 비교적 일정한 결과를 보여 주었지만, 상황에 따라서는 상당히 다른 결과를 보여 줄 수 있다.

그러므로 4가지 방법 모두를 실행하여 연구자가 원하는 자료를 사용하는 것을 권장한다.
Link Logistic regression analysis -[유의사항1] 참조
유의사항3
Odds ratio와 Relative ratio는 서로 의미하는 바도 다르고, 나타내는 방정식 또한 다르다.

Gold standard(+) Gold standard(-) Subtotal
Finding(+) TP(true positive) FP(false positive) TP+FP
Finding(-) FN(false negative) TN(true negative) FN+TN
Subtotal TP+FN FP+TN TP+FP+FN+TN

Odds ratio (교차비) = , Gold standard(+)가 Gold standard(-)에 비해 몇 배나 Finding (+)를 가지고 있는가에 대한 확률

Relative risk (상대위험도) = , Finding(+)는 Finding(-)에 비해 몇 배나 Gold standard(+)일 가능성이 있는가에 대한 확률

그러나 가끔 이를 혼용하여 사용하는 경우가 있는데.. 주로 의학분야에서 그러하다.

그 이유는 의학분야에서의 질병이란 전체 집단에서 차지하는 발생율이 극히 낮으므로 방정식으로 어떤 것을 무시하고 이러 저러한 복잡한 수학적 과정을 거치면 결국은 odds ratio 와 relative ratio 의 방정식이 같아진다는 이론이다.

그러므로 꼭 두가지를 따로 표현해야 하는 경우(2 x 2 table)를 제외하고는 혼용되는 경우가 있음을 알아둘 필요가 있다.

여기서는 그 의미가 혼용된 상태이고, odds ratio를 상대위험도로 이해를 하면 된다.
by Byung Gil Choi, MD, PhD.   cbg@catholic.ac.kr  Department of Radiology, College of Medicine, The Catholic University of Korea.