1. 서울 아산병원과 한국마이크로소프트가 함께 하는
의료 빅데이터 분석 컨테스트 공모과제
결 과 보 고 서
1
1. 참여 과제
과제 1번, 흉부 전산화단층촬영(CT)영상에서의 고립성 폐결절
환자의 폐암 진단 알고리즘 개발
2. 참 가 자 이근영
2. 2
연구주제 흉부 전산화단층촬영(CT) 영상에서의 고립성 폐결절 환자의 폐암진단 알고리즘 개발
연구의 필요성
암 사망률 1 위인 폐암은 점차 증가하고 있는 질환으로 흉부 CT 를 통해 조기검진을 시행하고 있으나 CT 의 진단 정확도가 많이 떨어져
폐암을 예측할 수 있는 진단 보조 수단이 필요함. 최근 각광받고 있는 빅데이터 +영상 분석기법을 통해 폐암의 예측 가능성을 향상시킬
수 있다면 불필요한 검사를 줄일 수 있음
필요기술
CT DICOM 영상에서 폐를 segmentation 하고 이상 병변 추출, 추출된 영상에서의 결절의 특성을 파악하고 폐암의 가능성을 예측하는 기
법
기대효과 폐암 조기 진단 및 판독 오류 감소
데이터 타입 임상정보+ CT 이미지
데이터 건수 환자의 임상정보(엑셀파일) CT 영상 (DICOM Image 한명당 120 장) 전체 환자수는 300 명 정도 예상
평가방법 폐암 병변 위치 디텍션 정확도, 폐암확률 예측도
과제 1) 흉부 전산화단층촬영(CT) 영상에서의 고립성 폐결절 환자의 폐암 진단 알고리즘 개발
3. 3
연구 결론 및 성과
Validation Set Benign/Malignant 판정 정확도 :
92 %
임상 테스트 준비
완료
4. 4
1. 데이터 처리과정
512x512px의 CT이미지를 10px 간격으로 50x50px 로 crop
원본 이미지 Crop을 통한 데이터 전처리
• ROI의 평균 width, height가 약 25px이며, 최대 크기는 약 50px 이
하임
• 512x512 px 크기의 원본 이미지 1장을 50x50 px 2,500 장으로 분
할함
• 일반적으로 CNN에 활용되는 MNIST Data Set의 이미지(28x28px)
와
유사한 크기로 CT 이미지 데이터를 전처리하여 CNN 적용
5. 5
1. 데이터 처리과정
Crop한 이미지에 대한 판별 결과 Class를 3차원 One-Hot Vector로 정의하고, 아래와 같이
Labeling
Not ROI
ROI를 포함하지 않는 이미지
Benign ROI
양성 ROI를 포함하는 이미지
Malignant ROI
악성 ROI를 포함하는 이미지
판별 결과에 따른 On-Hot Vector Label Training Set 구성
[1, 0, 0]
[0, 1, 0]
[0, 0, 1]
• Not ROI 이미지 중 Random Sampling 20,000장 추
출
• Benign ROI 이미지 약 3,000장 생성
• Malignant ROI 이미지 약 19,000장 생성
• 각 이미지 중 300장은 Test Set으로 분리
Benign Class 데이터가 다른 Class에 비해 부족하여
해당 클래스의 Classification 정확도 하락하는 것을
방지하기 위함
Data augmentation 필요
6. 6
1. 데이터 처리과정
Benign ROI 데이터 Augmentation 수행
Original Horizontal Flip Zoom In 30’ Rotation 45’ Rotation X 0.7 Blur
• Benign ROI를 포함하고 있는 하나의 원본 이미지를 수평 뒤집기, 확대, 회전, 흐리게 처리하여 데이터
수를 증가시킴
• Not ROI Class와 Malignant ROI Class에 비해 상대적으로 수가 적은 Benign ROI Class 데이터를 5배 증가시
켜
다른 Class와 유사한 수준의 이미지 데이터를 확보한 후, 이를 통해 Training Set을 구성함
Not ROI
약 20,000 장
Benign ROI
3,000 장 X 5
= 15,000 장
Malignant ROI
약 19,000 장
7. 7
2. 분석 과정
Convolutional Neural Network 기법을 이용한 이미지 데이터 분석
• 5개의 Conv + Relu Layer 와 2개의 Max Pool, 2개의 Fully Connected Layer를 조합하여 네트워크를
구성
Conv
+ Relu
•
•
•
Input
Image
•
•
•
Conv
+ Relu
•
•
•
Conv
+ Relu
•
•
•
Conv
+ Relu
•
•
•
Conv
+ Relu
Max
Pooling
Max
Pooling
•
•
•
FC FC Softmax Output
Vector
[1, 0, 0]
•
•
•
9. 9
2. 분석 과정
6만 여개의 데이터를 cost가 일정값에 수렴할 때 까지 학습을 수행
• x축 : 학습 횟수
• y축 : 평균 Cross Entropy Cost
• AdamOptimizer를 이용하여 Cost 함수 최적화 수행
• 약 6만개의 데이터를 400개의 Batch로 300회 이상 학습
• 200회 이상 부터는 cost가 0.55 에서 거의 줄어들지 않음
학습 수행에 따른 Cross Entropy 감소
Image Accuracy Test
Cost Optimization
• Benign 환자 89 - 93번, Malignant 환자 89 - 93번의
이미지 데이터를 Training Set에서 분리하여 매 학습마다
정확도를 측정함
• Malignant에 민감하게 반응하도록 조정
Class Not ROI Benign ROI
Malignant
ROI
Error(%) 5% 이하 15% 이하 2% 이하
10. 10
2. 분석 과정
Benign ROI, Malignant ROI가 가장 많이 겹치는 후보를 최대 3개까지 추출함
원본 CT 이미지 ROI Mask Prediction 결과
11. 11
2. 분석 과정
종양의 위치 판독 및 Benign, Malignant 구분
Not ROI
ROI를 포함하지 않는 이미지
[1, 0, 0]
Benign ROI
양성 ROI를 포함하는 이미지
[0, 1, 0]
Malignant ROI
악성 ROI를 포함하는 이미지
[0, 0, 1]
동일한 ROI를 포함하는
Crop Image의 판별 결과들 중
더 많이 출현하는 클래스를 출력
12. 12
3. 분석 결과
Validation Set ROI 위치 판독 결과
• CT 사진을 입력하면 ROI 위치를 빨간색으로 추천함
• 일반적으로 ROI 가 크면 하나의 위치를 출력하며, ROI가 작으면 여러개의 위치를 출력함
* 모든 환자에 대해 발견된 ROI 위치 결과는 첨부파일 참
Validation Set 012 Validation Set 005
13. 13
3. 분석 결과
Benign, Malignant 각 089~093 환자의 데이터(Training에 사용하지 않은) 로 모델을 평가
환자번호 B/M 구분 평가결과 일치여부
089 Benign Benign TRUE
090 Benign Benign TRUE
091 Benign Benign TRUE
092 Benign Benign TRUE
093 Benign Malignant FALSE
089 Malignant Malignant TRUE
090 Malignant Malignant TRUE
091 Malignant Malignant TRUE
092 Malignant Malignant TRUE
093 Malignant Malignant TRUE
예측
구분 양성 악성
Prevalence
= 50%
실
제
양성 4 1
Recall =
80%
악성 0 5
Fall-Out =
0%
Accuracy
= 90%
Precision
= 100%
FOR =
17%
15. 15
3. 분석 결과
Validation Set Benign, Malignant 구분 결과
판정 정확도 : 62개 중 57개 정답 92% 정답율
오답 : 17, 27, 61번(Benign) / 18, 37번(Malignant)
16. 16
4. 개선방향
어떻게 하면 정확도를 100%로 향상 시킬 수 있을까?
ROI 가 작을 경우 지나쳐 버리는 경우가 있다.
-> 50x50 px 뿐만 아니라 30, 40, 50 , 60등 으로 다양하게 스캐닝 하면 더 정확한 판별 가능
Benign class 판별의 정확도가 낮다.
-> 더 많은 양의 데이터와 시간이 주어지면 Overfitting을 방지 할 수 있을 것이라 예상
17. 17
5. 임상활용 가능성 및 사업화
임상에 바로 적용할 수 있는 특성
1. 90% 이상의 높은 정확도
2. CT 한장 당 10초 내외로 스캐닝 가능
3. Web Application 으로 쉽게 배포 가능
4. 환자정보 없이 순수하게 이미지만으로 판별 가능 (5번 과제도 동일하게
적용가능)
18. 18
5. 임상활용 가능성 및 사업화
수행환경 서버인 http://13.90.98.179/ 에서 Validation Set의 환자번호를 “001” 형식으로 입력하여, 분석 결
과 조회 가능