암의 예후, 즉 환자의 수술 후 생존기간에 대해 예측하는 것은 암 환자들에게 매우 중요한 요소이다. 과거의 예후 모델은 오직 나이, 암의 단계 (stage), 성별 등 임상정보만을 이용해 선형적인 관계로 예후를 예측했다. 하지만 이러한 방법은 같은 암 종이라도 각 환자마다 암의 특성이 다르다는 점을 반영하지 못한다는 문제로 인해 예측력이 떨어지는 한계점이 있다. 암의 다양성에 대해 이해하기 위해 최근 진행된 The Cancer Genome Atlas (TCGA)와 같은 대규모 컨소시움에서는 각 환자들의 암의 특성을 확인할 수 있는 다양한 멀티오믹스 데이터를 생산했다. 이 데이터를 통해 각 환자 별 암의 분자적 다양성에 대해 더 깊게 이해할 수 있게 되었고 우리는 이런 multi-omics 데이터를 암의 예후 예측에 적용함으로써 기존 예후 예측 모델보다 더 예측력이 좋은 예후모델을 구축했다.
<multi-omics 데이터를 통합적으로 고려하여 암의 예후를 예측하는 딥러닝 모델> 이전에도 딥러닝을 이용해 multi-omics 데이터를 학습하여 암의 예후를 예측하려하는 시도가 있었다. 이런 과거의 딥러닝 모델들은 모든 multi-omics 데이터를 선형적이고 독립적으로 판단해서 학습하는 방식으로 구조가 되어 있다. 하지만 multi-omics 데이터들은 생물학적으로 비선형적이고 서로 연관되어 작용한다. 우리는 이러한 생물학적인 특성을 반영하여 유전자 단위로 convolution을 진행해 비선형적인 관계를 학습하였고 또한 각 유전자 당 feature들의 연관성을 고려하여 학습을 진행했다. 이런 방식을 통해 우리는 기존의 모델들에 비해 예측력이 더 좋은 딥러닝 모델을 만들 수 있었고, 이를 통해 추후에는 암의 예후에 중요한 역할을 하는 유전자와 그 feature를 선별하여 암의 예후를 예측할 수 있는 biomarker를 발굴하려고 한다. |