Survival Manual for Statistical Analysis
(통계분석 생존지침서)


by Byung Gil Choi, MD, PhD.
Important 통계방법 선정법
Basic
개념 예제 방법
raw data가 없이 결과값만 있는 경우 실행할 수 있는 간단한 통계방법.

[MedCalc]에서는 상당수의 통계를 simple test로 진행할 수 있는 방법을 제시하고 있다.
raw data를 가지고 있는 경우가 최선이지만, 어떤 경우는 2x2 table로 직접 data를 입력하는 경우가 있다. 이런 경우 통계를 실행하려면 table의 내용을 모두 풀어서 raw data를 만들어야 하는 경우.

어떤 논문을 읽다가 의문스러운 부분이 있어 간단하게 통계를 실행하고자 하는 경우.

sensitivity, specificity를 알고 있는 2군이 있다. 2군간에 sensitivity에 유의한 차이가 있는지 알고 싶은 경우 등
MedCalc
Simple test
기초통계량(평균, 표준편차등) 단순 열람 연령, 신장의 평균, 표준편차, 표준오차는? SPSS
Descriptive statistics (기술통계)
연속변수의 정규분포 여부 검정 어떤 연속변수들이 정규분포를 하는가? SPSS
Kolmogorov-Smirnov test (정규분포검정)
표본의 평균을 이용하여 모집단의 평균을 추정하는 경우 일정한 구간으로 추정할 수 있는데 이를 신뢰구간(CI, confidence interval)이라 한다. 체중 평균의 95% confidence interval 은? SPSS
Confidence interval (CI, 신뢰구간)
연구에 필요한 sample size(표본크기) 산출 신약 예비실험 결과 평균=128, 표준편차=24 였다.
기존 약은 평균=138로 이미 알려져 있다.

신약이 기존의 약보다 효과가 있는가를 증명하려면 몇 명의 환자가 필요한가?
(α = 0.05, β=0.20 (power=0.80)으로 정함)
MedCalc
Sample size (표본크기)
관찰자간, 관찰자내의 신뢰도 검정 3명의 연구자가 측정한 결과가 유의하게 일치하는가? SPSS
Reliability analysis (신뢰도분석, ICC, intra-class correlation coefficient, Inter-observer correlation coefficient)
ROC curve
반드시 Confirm diagnosis 또는 이에 상응하는 Gold Standard 결과가 있어야 함.

Finding이나 검사 방법의 결과값이 반드시 연속변수일 필요는 없으나, 비연속변수일 경우 최소 4개 이상의 순위(ordinal)변수는 되어야 curve가 그려지고, 이상적으로는 7개 이상일 경우 curve의 모양이 그럴 듯하다.

ROC curve는 SPSS 보다는 MedCalc의 분석이 우세하다.
개념 예제 방법
ROC curve
검사방법의 유용성 및 cut-off value 판단
A, B, C 검사 방법중 가장 좋은 screening test는 무엇이며, 이 screening test 의 cut-off value는? SPSS
ROC curve (Receiver Operating Characteristic curve)
ROC curve
검사방법의 유용성 및 cut-off value 판단

ROC curve간의 비교
A, B, C 검사 방법중 가장 좋은 screening test는 무엇이며, 이 screening test 의 cut-off value는? 각 검사 방법간에 유의한 차이가 있는가? MedCalc
ROC curve (Receiver Operating Characteristic curve)
Comparison of ROC curves
2 x k 표 Disease(+) Disease(-)
0-10 ... ...
10-20 ... ...
20-30 ... ...
30-40 ... ...
40-50 ... ...
질환(disease)을 진단하는 새로운 검사(new_study)가 도입되어, 질환에 따라 새로운 검사결과가 나왔다.

새로운 검사결과를 간격으로 나누고 각 간격의 우도비(likelihood ratio)와 95% 신뢰구간을 알아 보고자 한다.
MedCalc
in 2 x k table
Interval likelihood ratio (간격우도비)
Comparison of means (평균치 비교)
개념 예제 방법
1개군과 알려진 특정값의 비교

A군 vs. 특정값
A검사 결과 나타난 평균치가 기존에 정상이라고 알려진 값와 유의한 차이가 있는가? SPSS
One-Sample t-test (일표본 t 검정)
독립된 2개군의 비교

A군 vs. B군
A군과 B군사이에 AST의 차이가 있는가? SPSS
t-test (Student t-test, Independent-sample t-test, 독립표본 t 검정, t 검정)
... 상응하는 비모수적 방법 SPSS
Mann Whitney U-test (Mann Whitney U 검정)
짝을 지은 2개군의 비교

치료전 vs. 치료후
치료전과 후의 안압에 차이가 있는가? SPSS
Paired t-test (대응표본 t 검정)
... 상응하는 비모수적 방법 SPSS
Wilcoxon signed rank test (Wilcoxon부호순위 검정)
독립된 3개 이상 군의 비교

A군 vs. B군 vs. C군 ...
A, B, C 군의 혈압에 유의한 차이가 있는가? SPSS
One-way ANOVA (일원배치 분산분석)
... 상응하는 비모수적 방법 SPSS
Kruskall Wallis test (Kruskall Wallis 검정)
A군 B군 C군
0hr 1hr 3hr 0hr 1hr 3hr 0hr 1hr 3hr
.. .. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. .. ..

반복되는 (짝을 이루는) 측정값을 가진 군간의 유의성을 알아보고자 하는 경우 (paired t-test의 확장개념)
3번씩 반복측정을 한 A, B, C 군이 있다. 군간에는 유의한 차이가 있는가? SPSS
Repeated measures ANOVA (반복측정 분산분석, GLM-repeated measures)
Correlation analysis (상관분석)
연속변수로 구성된 두변수간의 선형 관련성이 있는가에 대한 분석방법으로 독립변수와 종속변수의 개념이 없다. 즉, 원인과 결과에 대한 개념이 없는 data를 분석하고자 하는 경우 이용된다.

예를 들어 키와 발의 크기가 선형상관관계를 이루고 있다는 상관분석 결과가 나왔을 경우 키가 크면 발이 큰 것인지, 발이 크면 키가 큰 것인지는 알 수 없다. 그러므로 원인과 결과에 대한 설명이 확실한 경우는 다른 분석법(회귀분석, Regression analysis)을 택하여야 한다. - 즉, 독립변수과 종속변수의 개념이 모호한 경우 사용함.

제3의 교란요인(Confounding factor)에 대한 고려가 필요한 경우가 있다. 예를 들어 경찰관의 숫자와 범죄발생율의 관련성을 알고자 하는 경우, 해당 지역의 인구수(제3의 교란요인)를 고려하지 않을 경우 경찰관 수가 많으면 범죄발생율이 증가한다는 잘못된 결론에 도달할 수 있다. 그러므로 제3의 교란요인이 있을 경우 편상관 분석(Partial correlation analysis)를 이용하여야 한다.
개념 예제 방법
2개군의 선형 관련성 분석 A군과 B군간에는 어느 정도의 상관성을 가지고 있는가? (A군이 증가하면 B군도 증가하는지? A군이 증가하면 B군은 감소하는지? 등) SPSS
Simple correlation analysis
(단순상관분석, Bivariate correlation analysis, 이변량 상관분석, Pearson correlation coefficient, Pearson 상관계수)
... 상응하는 비모수적 방법 SPSS
Spearman correlation analysis (Spearman correlationcoefficient, Spearman 상관계수)
Simple correlation analysis에 제3의 교란요인(Confounding factor)을 반영하고자 하는 경우 제3의 교란요인을 배제할 경우 A군과 B군간에는 상관성을 가지고 있는가? SPSS
Partial correlation analysis (편상관분석, Partial correlation coefficient, 편상관계수)
Regression analysis (회귀분석)
연속변수간의 선형 관련성 여부와 이를 반영하는 수학 방정식을 구하고자 하는 경우 이용된다.

상관분석(Correlation analysis)과는 달리 독립변수와 종속변수 개념이 있음.
개념 예제 방법
독립변수 1 개 (연속변수)
종속변수 1 개 (연속변수)

Y=B0+B1X
Alkaline phosphatase (ALP,독립변수)와 Total bilirubin (TB, 종속변수)의 직선적 관련성이 있는지? 있다면 어떤 방정식으로 나타낼 수 있는가?
(ALP가 변화하면 TB는 어떻게 변화하는 것일까?)
SPSS
Simple regression analysis (단순회귀분석, Simple linear regression analysis, 단순선형회귀분석)
독립변수 n 개 (연속변수)
종속변수 1 개 (연속변수)

Y = B0 + B1X1 + B2X2 + B3X3 ... + BnXn
Age[X1], Stent Diameter(mm)[X2], ALP(Al Phosphatase)[X3], AST(sGOT)[X4], ALT(sGPT)[X5], Total Bilirubin[X6]가 Stent Open Duration(days)[Y]에 영향을 주는가?
준다면 어떤 관련식이 성립되며, 어떤 변수가 영향을 주는 것인가?
SPSS
Multiple regression analysis (다중회귀분석, Multiple linear regression analysis, 다중선형회귀분석)
Multicollinearity (다중공선성)
독립변수 n 개 (연속 or 비연속변수)
종속변수 1 개 (이분된 비연속변수)


Z = B0 + B1X1 + B2X2 + B3X3 ... + BnXn
Age, Sex, HBsAg, HBsAb, HCVAb, AST(sGOT), ALT(sGPT) 중에 초음파 검사에서 Liver chirrhosis로 진단될 위험요소는 어떤 것이며, 이들 위험요소의 Odd ratio는 얼마인가? SPSS
Logistic regression analysis (로지스틱 회귀분석)
Discriminant analysis (판별분석)
One-way ANOVA와 Logistic regression analysis를 혼합한 형태의 분석방법으로 종속변수에 영향을 주는 독립변수를 검정하고 이들 독립변수를 이용하여 종속변수를 예측할 수 있는 판별함수을 만든다.

예1) 지난 병원장 선거에서 후보자1, 2, 3 에게 투표를 한 사람들의 인적사항 (임상과, 나이, 성별, 졸업학교, 대학원 지도교수, 일일외래환자수 평균)을 조사하였다.
어떤 인적사항이 병원장 후보 선택에 영향을 주었는가?
이번 병원장 선거에서 조사항목이 [영상의학과, 54세, 남자, 하버드대, 홍길동, 120명]인 사람은 어떤 병원장 후보를 뽑을 것인가?

예2) 간암환자를 1개월 후 재발, 1-3개월 후 재발, 3개월 후 재발한 3개군으로 나누었다.
이 환자들의 a-FP, angio-staing여부, 나이, HBsAg여부,HBsAb여부를 조사하였다.
재발 시기에 영향을 주는 요인은 어떤 것인가?
새로운 환자가 왔다. 이 환자의 a-FP, angio-staing여부, 나이, HBsAg여부,HBsAb여부 결과가 나왔다. 그렇다면 이 환자는 언제 재발할 가능성이 높은가?
개념 예제 방법
독립변수 n 개 (연속 or 비연속변수)
종속변수 1 개 (군을 나타내는 비연속변수)

D (discriminant function, 판별함수) = B0 + B1X1 + B2X2 + B3X3 ... + BnXn
여러 변수중에 초음파 검사에서 Liver chirrhosis로 진단되는데 영향을 미치는 변수는 무엇인가? 새로운 환자가 왔다. 이 환자의 변수들을 아는 경우 이 환자가 초음파 검사에서 Liver chirrhosis로 진단될 것을 예측할 수 있는 함수는 어떤 것인가? SPSS
Discriminant analysis (판별분석)
Crosstab (교차분석, 비연속변수 분석)
변수의 값이 비연속변수인 경우 적용되는 분석방법으로 평균에 대한 개념이 없는 data를 이용하는 경우 사용한다.
개념 예제 방법
2 x 2 표 환자군 대조군
증상(+) ... ...
증상(-) ... ...
(독립성분석, independent proportions)

환자군과 대조군간에 유의한 차이가 있는가?
SPSS
in 2 x 2 table
Pearson's Chi-square test (Pearson 카이제곱검정, Chi-square test for Independence)
Fisher's exact test (Fisher 직접확률계산법)
Odds ratio (교차비) Relative risk (상대위험도)
2 x 2 표 B검사(+) B검사(-)
A검사(+) ... ...
A검사(-) ... ...
(짝 지은 자료분석, paired proportions)

A검사와 B검사간에 유의한 차이가 있는가?
SPSS
in 2 x 2 table
McNemar test (맥네마 검정)
Gold standard(+) Gold standard(-) Subtotal
Finding(+) TP(true positive) FP(false positive) TP+FP
Finding(-) FN(false negative) TN(true negative) FN+TN
Subtotal TP+FN FP+TN TP+FP+FN+TN
Excel
in 2 x 2 table
Sensitivity (민감도) Specificity (특이도) Accuracy (정확도) Prevalence (유병률)
Positive predictive value (양성예측도) Negative predictive value (음성예측도)
Odds ratio (교차비) Relative risk (상대위험도)
r x c 표 A군 B군 C군
요인a ... ... ...
요인b ... ... ...
요인c ... ... ...
요인d ... ... ...
(독립성분석)

A, B, C 군간에 유의한 차이가 있는가?
SPSS
in r x c table
Pearson's chi-square test (Pearson 카이제곱검정, Chi-square test for independence)
r x c 표 크기 <1 1-2 크기 >2
반응(1+) ... ... ...
반응(2+) ... ... ...
반응(3+) ... ... ...
(경향성분석)

크기가 증가할수록 반응이 잘 일어나는가?
SPSS
in r x c table
Linear by linear association (선형대 선형 결합법, Chi-square test for trend)
r x r 표 A방법 1 A방법 2 A방법 3
B방법 1 ... ... ...
B방법 2 ... ... ...
B방법 3 ... ... ...
(일치도분석)

A, B 방법은 서로 어느정도 일치하는가?
SPSS
in r x r table
Gamma, Kappa (Degree of agreement, 일치도)
r x c 표 A군 B군 C군
요인a ... ... ...
요인b ... ... ...
요인c ... ... ...
요인d ... ... ...
제3의 교란요인(Confounding factor)
(독립성분석, 교란요인 배제)

제3의 교란요인을 배제할 경우 군간에는 차이가 있는가?
SPSS
in r x c table
Mantel-Haenszel chi-square test (Mantel-Haenszel 카이제곱검정, Stratified chi-square test, 층화 카이제곱검정)
Survival analysis (생존분석)
군내, 군간의 생존율(Survival rate)분석방법

종속변수가 이분된 비연속변수라는 점에서 Logistic regression analysis와 유사하지만, censored data(불확실한 자료)라는 개념이 있고, 생존기간이라는 변수가 있다는 점이 차이점이다.

종속변수 즉 status를 나타내는 변수에는 두가지 항목이 존재하게 되는데 하나는 원하는 event (death)이고, 다른 하나는 no event (censored)를 의미한다. 예를 들어 연구기간이 5년이었는데 그 기간에 해당 질병으로 사망한 경우는 event가 발생한 것이고, 다른 원인에 의한 사망이나, 생존하는 경우, 또는 사망 여부를 알 수 없는 경우를 censored로 처리를 하게 된다. 즉 반드시 죽고 살고로 나뉘는 것이 아니고 event vs. censored (해당질병에 의한 사망 vs. 기타 불확실한 모든 경우)로 이분된 값을 가지게 된다. 그리고 이런 censored data를 적절히 처리하기 위하여 이들의 생존기간이 또 하나의 변수로 있어야 한다.

생존이라는 용어가 들어간다고 하여 반드시 살고 죽고의 의미만을 가지는 분석은 아니다.

예1) Stomach ca. 수술 후 5 year survival rate는 얼마인가? Stage에 따라서 생존율에는 차이가 있는가? 어떤 요소가 생존율에 영향을 미치는가?

예2) Stent의 수명은 어느 정도이고 12 month patency rate는 얼마일까? Stent의 종류에 따라서 patency에는 어떤 차이가 있는가? 어떤 요소가 patency에 영향을 미치는가?
개념 예제 방법
1. 상태를 나타내는 이분된 비연속변수
(event vs. censored)
2. 기간을 나타내는 변수 (survival time)
3. 기타 (group, stage.. 등 비연속변수)

각군의 자료가 50개 이상인 경우

Event발생과 상관없이 원하는 생존율의 기간을 정할 수 있다. 그래프에 censored data가 나타나지 않는다.
HCC환자들의 median survival time은 얼마인가?

2가지 치료법[Surgery, TACE]이 있다면, 각각의 median survival time은 얼마이고, 2군간의 survival rate에는 유의한 차이가 있는가?
SPSS
Life table method (생명표법, Survival analysis by life table method)
Wilcoxon rank test
1. 상태를 나타내는 이분된 비연속변수
(event vs. censored)
2. 기간을 나타내는 변수 (survival time)
3. 기타 (group, stage.. 등 비연속변수)

각군의 자료가 50개 이하인 경우

Event발생때 마다 자동으로 생존율이 계산되며, 그래프에 censored data가 나타난다.
Lung ca.로 항암치료를 받은 환자들의 mean, median survival time은 얼마인가?

Lung ca. stage를 I, II, III, IV로 구분하는 경우 각각의 mean, median survival time은 얼마이고, 4 군간의 survival rate에는 유의한 차이가 있는가?
SPSS
Kaplan-Meier method (Kaplan-Meier법, Survival analysis by Kaplan-Meier method)
Log rank test
1. 상태를 나타내는 이분된 비연속변수
(event vs. censored)
2. 기간을 나타내는 변수 (survival time)
3. 기타 (group, stage, age.. 등 비연속변수 or 연속변수)

생존율에 영향을 주는 제3의 교란요인(Confounding factor)을 반영하고 영향력 검정

LML curve가 cross 하지 않는 경우 즉, 제3의 교란요인들 각각이 연구기간중 일정한 영향력을 가진다는 전제조건이 성립되어야 한다.
Lung ca.의 생존율에 영향을 주는 변수는 어떤 것이며, 각각의 odds ratio는 얼마인가 즉 사망율이 몇배나 증가하는가?

통계적으로 유의하게 영향을 주는 변수로 군을 나누어 Survival graph를 그려보고자 한다.
SPSS
Cox proportional hazard model (Cox 비례위험모형, Cox regression analysis, Cox 회귀분석)
전체적인 개념은 Cox proportional hazard model과 같으나, 해당 기간중 위험요소가 시간에 따라 일정한 영향력을 갖지 못하는 경우에 응용된다.

그러므로 먼저 Cox proportional hazard model로 분석하여, LML curve가 cross하는 경우

즉, Cox proportional hazard model의 전제조건이 만족되는 않는 경우 이용한다.
Lung ca.의 생존율에 영향을 주는 변수는 어떤 것이며, 각각의 odds ratio는 얼마인가 즉 사망율이 몇배나 증가하는가? SPSS
Time-dependent Cox regression analysis
Classification analysis (분류분석)
하나의 군을 어떤 cutting point에서 분류하는 것이 통계적으로 효율적인지를 알아보고자 하는 경우 사용할 수 있다.

이 분석방법들은 위의 [SPSS]을 이용하는 분석방법과는 달리 [R]이라는 별도의 프로그램을 이용하는 관계로 해당 프로그램의 설치과정이 필요하다.

다음에 제시하는 두가지 분석방법은 거의 유사한 결과치를 보여주는데, 전자는 생존 분석 그래프를 함께 보여 주므로 결과를 좀더 쉽게 파악할 수 있고, 후자는 좀 더 세분화된 분류가 가능한 장점이 있다.
개념 예제 방법
하나의 생존분석결과를 통계적으로 가장 유의한 차이를 보이는 2개의 군으로 나누고자 하는 경우 cutting point 선정 연구자의 임의로 A군(VEGF>100 ), B군(VEGF<=100)으로 나누어 A군과 B군의 생존율을 비교한다면 2군간에 유의한 차이가 있을까?

그럼 무슨 근거로 100을 기준으로 하였는가?

생존율이 군간에 가장 유의하게 차이가 나려면 과연 VEGF의 값을 어떤 점(cutting point)을 기준으로 하여야 하는가?
R
Maximal chi-square method (Maximally selected chi-square statistics, Maximally selected rank statistics)
하나의 군을 2개 이상으로 분류(classification)할 수 있는 cutting point 선정 VEGF값과 Lung ca.의 survival status를 알고 있다. 이때 VEGF의 값을 어떤 cutting point에서 나누어 여러개의 군으로 만드는 것이 가장 효율적인가를 알아보고자 한다. R
Recursive partitioning procedure (tree classification algorithm, regression trees model)
by Byung Gil Choi, MD, PhD.   cbg@catholic.ac.kr  Department of Radiology, College of Medicine, The Catholic University of Korea.