Survival Manual for Statistical Analysis
(통계분석 생존지침서)


by Byung Gil Choi, MD, PhD.
R Maximal chi-square method (Maximally selected chi-square statistics, Maximally selected rank statistics)
[R]+package
SPSS를 이용하는 통계방법이 아니므로 프로그램 [R]과 해당 package가 설치되어 있어야 한다.             Link [R 소개] 참조
개념
하나의 생존분석결과를 통계적으로 가장 유의한 차이를 보이는 2개의 군으로 나누고자 하는 경우 cutting point 선정
예제
VEGF(Vascular endothelial growth factor)가 Lung ca.의 생존율에 영향을 주는가? [Cox proportional hazard model]

VEGF의 어떤 값을 cutting point로 나누어야 가장 유의하게 생존율에 영향을 미치는가? [Maximal chi-square method]

예를 들면,

연구자의 임의로 A군(VEGF>100 ), B군(VEGF<=100)으로 나누어 A군과 B군의 생존율을 비교한다면 2군간에 유의한 차이가 있을까?

그럼 무슨 근거로 100을 기준으로 하였는가?

생존율이 군간에 가장 유의하게 차이가 나려면 과연 VEGF의 값을 어떤 점(cutting point)을 기준으로 하여야 하는가?

DownLoad maximal_chi_square_method.sav         DownLoad maximal_chi_square_method.xls         DownLoad maxstat.csv
[Cox proportional hazard model]의 [Enter]Method로 분석한 결과

[Omnibus Tests of Model Coefficients]표에서 Overall p=0.000으로 전체적으로 유의한 결과가 나왔다.

즉, VEGF는 생존율에 영향을 주는 변수이다.



[Variables in Equation]표에서

VEGF B = -0.016 (-)값을 가지므로 VEGF가 "1"증가할수록 사망률이 감소한다는 의미
p = 0.001 0.05보다 작으므로 사망율에 유의한 영향을 준다는 의미
Exp(B) = 0 .984 [VEGF가 "1" 증가할 때마다 사망율이 0.984배로 감소한다는 의미
방법
1. Data 입력

[MS-Excel]에 다음과 같이 data를 정리한다.

VEGF (cutting point를 구하고자 하는 변수)
time (Survival Time, 환자가 살아있는 기간)
status (Survival Status, Event=0, Censored=1)

이때 VEGF의 값을 어떤 cutting point에서 2개의 군으로 분리하는 것이 통계적으로 가장 유의한 생존분석 결과를 나타낼 수 있을 것인가를 알고자 한다.

즉, VEGF의 값이 얼마면 죽고, 얼마이면 사는지 그 정확한 cutting point를 알아 2개의 군으로 분리하고자 할 경우.

* Missing data가 있으면 안됨.
* 변수의 이름에는 띄어쓰기, 기호 등이 포함되어서는 안됨.

2. Data 전환

[다른 이름으로 저장]

[파일 형식]에서 [CSV (쉼표로 분리) (*.csv)] 선택

[파일 이름]에 원하는 파일 이름을 입력하고 [저장]-[확인]-[예]

저장된 파일(maxstat.csv)을 원하는 폴더에 저장한다.

가능하면 폴더의 경로가 짧은 것을 이용하는 것이 다음 과정을 시행하는데 용이하다.

여기서는 C 드라이브 data 폴더에 넣었다.
3. Script 작성

아래의 항목에 data관련 자료를 입력 후, [-Make Script-]를 누르면, 새로운 창이 나타남.

* 데이터 작성시 이용한 변수 이름을 그대로 사용하여야 하며 대소문자, 오타에 각별히 유의할 것

설명 입력 유의사항
csv 파일이 있는 경로 c:/data C 드라이브의 data라는 폴더에 있는 경우를 의미함.
드라이브명 뒤에 back-slash(\)가 아니고, slash(/)임에 유의할 것
csv 파일명 .csv maxstat 저장한 파일명, 확장자 csv는 입력하지 않는다.
Survival Time을 나타내는 변수명 time 생존기간을 나타내는 변수명
Event가 있는 변수명 status Event, Censored data가 있는 변수명
Event를 나타내는 값 0 Event = 0, Censored = 1 로 입력한 경우 0
반대로 입력하였다면 1
Cutting point를 결정하고자 하는 변수명 VEGF cutting point를 만들고자 하는 변수명
새로운 창에서

Script 부분을 선택하고

마우스 오른쪽 버튼을 눌러

[복사]를 선택한다.

4. 패키지 불러오기

바탕화면에 있는 [R]을 실행

[MENU]-[패키지]-[패키지 불러오기]-[maxstat]-[OK]

* 프로그램 (R)을 닫지 않고 다른 data를 이용하는 경우 [패키지 불러오기]를 중복하여 실행할 필요는 없다.

5. 통계 실행

[MENU]-[파일]-[새로운 스크립트]

[제목없음 -R 편집기]창에 복사한 내용 [붙여넣기]

[MENU]-[편집]-[전부 실행]
결과해석
Maximally selected LogRank statistics using Lau92
data: Surv(time, status==0) by VEGF
M = 4.5462, p-value = 0.000258
sample estimates:
estimated cutpoint
                156

설명하면,

→ VEGF 변수를 이용하였다.

→ 두 군으로 분리 한 후 두 군간에 통계적으로 유의한 차이가 있다.
(p=0.000258)

→ 분류에 이용된 cutting point156 이다.

즉, VEGF를 156보다 큰 군과 156보다 작은 군으로 나누어 생존율을 계산하면 2 군간에 유의한 차이가 있다 (p=0.000258).


[R Graphics] 창에 cutting point를 이용한 2군의 Survival Graph가 나타난다.

한 눈에 보아도 2군간의 생존율에는 차이가 있는 것처럼 보인다.

마우스 오른쪽 버튼을 click하고, [bitmap으로 복사]를 선택하면, power point에 그래프 [붙이기]가 가능하다.
유의사항
Missing data가 있는 경우 오류가 남.
변수의 이름에는 띄어쓰기, 기호 등이 포함되어서는 안됨.
변수의 이름을 입력하여 Script를 만드는 과정에서 오타가 있는 경우 오류가 발생함.
참고자료
논문인용방법:
Maxstat, a maximal chi-square method in R 2.13.0 (R Development Core Team, Vienna, Austria, http://www.R-project.org) was used to identify optimal cutting points for each marker.
통계 방법이 인용된 논문:
Brabender J, Danenberg KD, Metzger R, Schneider PM, Park J, Salonga D, Holscher AH, Danenberg PV. Epidermal growth factor receptor and HER2-neu mRNA expression in non-small cell lung cancer Is correlated with survival. Clin Cancer Res. 2001 Jul;7(7):1850-5.
DownLoad 원문보기
프로젝트 소식지, 사용자 설명서: R News, The Newsletter of the R Project, Volume 2/1, March 2002
DownLoad 원문보기
이론적인 배경을 설명한 논문들:
Hothorn T, Lausen B. On the exact distribution of maximally selected rank statistics. Computational Statistics & Data Analysis 43 (2003) 121-137.
DownLoad 원문보기
Anne-Laure Boulesteix. Maximally selected chi-square statistics for at least ordinal scaled variables.
DownLoad 원문보기
by Byung Gil Choi, MD, PhD.   cbg@catholic.ac.kr  Department of Radiology, College of Medicine, The Catholic University of Korea.