[Misols 기술 블로그 13강] AI는 어떻게 엑스선 영상을 '이해'하는가?: 컴퓨터 비전과 딥러닝

지난 12강까지 우리는 Misols의 광자 계수형 디텍터(PCD)가 어떻게 엑스선 장비의 물리적 한계를 극복하고, 노이즈 없는 초고해상도의 컬러 영상을 만들어내는지(Phase 2: 하드웨어 혁신)를 살펴보았습니다.

하지만 디텍터가 아무리 압도적이고 완벽한 데이터를 쏟아내도, 이를 정확하게 해석할 수 없다면 무용지물입니다. 하루에도 수백 장의 CT 영상을 판독해야 하는 의료진에게는 이 방대한 데이터를 빠르고 정확하게 분석해 줄 '똑똑한 조수'가 필요합니다.

이번 13강부터는 하드웨어가 만들어낸 기적을 완성하는 소프트웨어의 마법, 인공지능(AI)과 의료영상의 융합(Phase 3)에 대해 이야기해 보겠습니다. 컴퓨터는 도대체 어떻게 흑백 엑스선 사진을 보고 암세포를 찾아내는 것일까요?



1. 컴퓨터의 눈: 사진은 '숫자의 바다'일 뿐이다

우리는 엑스선 사진을 볼 때 '갈비뼈', '심장', '폐'라는 형태를 직관적으로 인식합니다. 하지만 컴퓨터에게 사진은 그저 아주 잘게 쪼개진 바둑판 모양의 격자(픽셀)와, 그 칸마다 적혀 있는 '숫자들의 집합'일 뿐입니다.

  • 이해하기 쉬운 비유: 엑스선이 통과해서 까맣게 탄 폐 부분의 픽셀은 '0', 엑스선을 막아내서 하얗게 남은 뼈 부분의 픽셀은 '255'라는 숫자로 기록됩니다. 즉, 인공지능이 엑스선 영상을 본다는 것은, 수백만 개의 숫자가 적힌 거대한 엑스셀(Excel) 표를 읽어 내려가며 특정 숫자의 패턴을 찾는 수학적 과정입니다. 이를 컴퓨터 비전(Computer Vision)이라고 부릅니다.


2. 기계학습(ML)과 딥러닝(DL)의 차이

그렇다면 이 숫자의 바다에서 폐 결절(암세포의 씨앗)은 어떻게 찾아낼까요? 과거의 방식과 현재의 딥러닝 방식은 큰 차이가 있습니다.

과거의 방식 (전통적 기계학습): 의사가 정답의 특징을 알려준다 과거에는 프로그래머와 의사가 컴퓨터에게 종양의 특징을 일일이 공식으로 입력했습니다. "종양은 주변보다 숫자가 높고(하얗고), 동그란 모양이며, 크기는 1cm 이상이야"라고 규칙을 정해주는 것입니다. 하지만 인체는 복잡해서, 동그랗지 않거나 뼈에 교묘하게 가려진 불규칙한 종양을 만나면 컴퓨터는 완전히 속아 넘어가 버렸습니다.

현대의 방식 (딥러닝): 스스로 특징을 깨우치다 최근 의료 혁명을 이끄는 딥러닝(Deep Learning), 특히 합성곱 신경망(CNN) 기술은 접근법이 완전히 다릅니다. 인간이 규칙을 설명해 주지 않습니다.

  • 이해하기 쉬운 비유: 아이에게 '고양이'가 무엇인지 가르칠 때, "귀가 뾰족하고 수염이 4가닥 이상이며 꼬리가 있는 동물"이라고 복잡하게 설명하지 않습니다. 그냥 수천 장의 고양이 사진을 보여주며 "이게 고양이야"라고 반복 학습시키면, 아이는 스스로 고양이만의 미묘한 특징을 깨우칩니다.

딥러닝도 마찬가지입니다. 암세포가 있는 엑스선 사진 10만 장과 정상 사진 10만 장을 입력하면, 인공지능 스스로 수백 겹의 신경망 필터를 거치며 "암세포 주변의 픽셀 숫자들은 이런 식의 미세한 질감과 명암 변화 패턴을 가지는구나!" 하고 인간이 미처 발견하지 못한 수학적 특징(Feature)까지 스스로 추출해 냅니다.


3. AI가 엑스선을 훑고 지나가는 과정 (CNN의 원리)

인공지능이 영상을 학습할 때 돋보기(필터)를 들고 사진의 왼쪽 위부터 오른쪽 아래까지 한 칸씩 이동하며 훑어냅니다(이 과정을 '합성곱'이라고 합니다).

  1. 초기 단계: 처음에는 선, 모서리, 색의 경계선 같은 아주 단순한 특징만 파악합니다.

  2. 중간 단계: 선들이 모여 만든 동그라미, 질감 등 조금 더 복잡한 형태를 인식합니다.

  3. 최종 단계: 이 모든 패턴을 종합하여 "이 영역은 98%의 확률로 악성 폐 결절입니다"라고 결론을 내리고 화면에 붉은색 박스를 그려 의사에게 알려줍니다.


4. 하드웨어(PCD)와 소프트웨어(AI)의 완벽한 시너지

왜 Misols의 PCD 기술이 인공지능과 만났을 때 그 파괴력이 수십 배로 커질까요? 인공지능의 성능을 결정하는 가장 중요한 요소는 다름 아닌 '입력되는 데이터(사진)의 품질'이기 때문입니다.

기존 CT(EID)가 만들어낸 영상에는 기계적 잡음(노이즈)과 임플란트 주변의 뭉개짐(메탈 아티팩트)이 가득합니다. 아무리 뛰어난 인공지능이라도 흐리멍덩하고 지지직거리는 사진을 주면, 노이즈를 암세포로 착각하는 오진(False Positive)을 내릴 확률이 급증합니다. 쓰레기를 넣으면 쓰레기가 나온다는 'GIGO(Garbage In, Garbage Out)' 법칙입니다.

하지만 Misols의 PCD가 제공하는 영상은 노이즈가 완벽히 제거된 초고해상도의 순수한 데이터입니다. 게다가 다중 에너지 분리를 통해 물질의 화학적 성분표(컬러 데이터)까지 AI에게 함께 제공합니다. 흐릿한 흑백 CCTV를 보던 AI에게, 갑자기 4K 초고화질 컬러 현미경을 쥐여준 것과 같습니다. 이 압도적인 하드웨어 데이터를 바탕으로, Misols의 AI 알고리즘은 기존에는 불가능했던 초기 미세 병변까지 완벽하게 잡아낼 수 있습니다.


인공지능이 엑스선 영상을 어떻게 숫자로 이해하고 분석하는지 기초적인 원리를 알아보았습니다. 그렇다면 이 똑똑한 인공지능을 '진단'에만 쓰는 것이 아니라, 사진 자체의 화질을 마법처럼 끌어올리는 데에도 사용할 수 있지 않을까요?

다음 14강, [노이즈 제거와 화질 개선의 마술: 딥러닝 기반 초고해상도 영상 재구성]에서는 방사선을 아주 조금만 쓰고도 AI를 이용해 화질을 극대화하는 최첨단 영상 처리 기술에 대해 파헤쳐 보겠습니다.


[전문 용어 및 약어 주석]

  • PCD (Photon Counting Detector, 광자 계수형 디텍터): 엑스선 입자를 개별적으로 세어 노이즈를 제거하고 물질을 분리해 내는 차세대 직접 변환 센서 기술.

  • CT (Computed Tomography, 컴퓨터 단층촬영장치): 엑스선을 360도 회전하며 촬영한 후 컴퓨터를 이용해 인체의 단면을 3차원 영상으로 재구성하는 진단 기기.

  • Computer Vision (컴퓨터 비전): 인공지능의 한 분야로, 컴퓨터가 이미지나 비디오 영상과 같은 시각적 세계를 해석하고 이해하도록 가르치는 기술.

  • DL (Deep Learning, 딥러닝 / 심층학습): 인간의 뇌 신경망을 모방한 인공신경망을 여러 겹으로 깊게 쌓아, 컴퓨터가 방대한 데이터 속에서 스스로 패턴을 찾아내고 학습하도록 하는 기계학습의 핵심 기술.

  • CNN (Convolutional Neural Network, 합성곱 신경망): 딥러닝 알고리즘 중 하나로, 이미지의 부분적인 특징(선, 면, 질감 등)을 필터로 훑어가며 추출하는 데 특화되어 있어 의료영상 분석에 가장 널리 쓰이는 신경망 구조.

[참고해 볼 만한 링크]

댓글