후두내시경을 이용한 후두 병변 진단의 인공지능 적용
Application of Artificial Intelligence to Diagnosis of Laryngeal Lesions Using Laryngoscopy
Article information
Trans Abstract
Laryngeal diseases have a significant impact on quality of life and often require timely and accurate diagnosis for effective management. Conventional methods of diagnosis, such as manual inspection of laryngoscopic images, have limitations in terms of accuracy and efficiency. The integration of artificial intelligence (AI) and machine learning techniques in laryngoscopic image analysis has emerged as a promising approach to enhance diagnostic accuracy, streamline workflow, and improve patient outcomes. This review paper provides an in-depth analysis of the recent advancements in AI-driven laryngoscopic image analysis for the diagnosis of laryngeal diseases, also covering methodologies, challenges, and future prospects.
서 론
머신러닝은 예제 데이터로부터 학습한 후 새로운 데이터에 대한 예측을 수행할 수 있는 알고리즘이며, 딥러닝은 머신러닝의 하위 개념으로 대량의 데이터로부터 패턴을 학습하여 이를 기반으로 인공 신경망을 사용하여 예측한다[1,2]. 인공지능(artificial intelligence, AI)은 머신러닝, 딥러닝을 포함하는 가장 큰 개념으로 인간의 학습 능력과 추론 능력, 지각 능력 등을 컴퓨터 시스템을 통해 수행할 수 있게 하는 기술을 의미한다. 지난 수년간 컴퓨터 기술의 발전과 지속적인 대단위 데이터셋의 등장, 컨볼루션 신경망(convolutional neural network, CNN) 기술의 적용으로 AI의 적용 분야는 이미지 인식 및 음성 처리 분야에서 크게 발전하고 있다[3]. 특히 AI는 의학 이미지 분야, 특히 대장내시경, 안저촬영 영상, X-ray, CT 등의 데이터를 이용하여 진단을 예측하는데 성공적인 결과를 보고하고 있다[4].
이비인후과 영역에서도 이미지 데이터에 AI를 접목하려는 노력이 있어 왔으며, 특히 후두음성언어의학 분야에서는 후두내시경 영상을 분석하는 연구가 활발히 이루어지고 있다. 후두내시경, 특히 굴곡성 내시경은 이비인후과의사에 의해서 가장 많이 행해지고 있는 술기 중의 하나로 비강, 비인두, 구인두, 후두, 하인두의 구조물을 관찰할 수 있으며, 딥러닝 모델 학습을 위해 풍부한 이미지 데이터를 제공할 수 있다. AI를 이용한 후두내시경 분석의 적용 범위는 성대 점막의 진동분석, 병변 인식 및 진단, 성대 움직임 평가, 후두 구조물의 인식 및 특징화, 주요 프레임 선택 등이 있다[5]. 본 종설에서는 임상의에게 중요한 후두내시경을 이용한 후두 병변의 진단에 있어서 AI 적용 모델에 국한하여 살펴보고자 한다.
이를 위해 이미지 데이터 분석에 쓰이는 딥러닝 모델의 기본 개념을 기술하고, 현재까지 보고된 AI를 통한 후두내시경 이미지 분석에 대한 연구들을 정리하고 한계와 앞으로 나아가야 할 부분을 임상의의 관점에서 기술하고자 한다.
본 론
후두내시경 이미지 분석 모델에 쓰이는 딥러닝 알고리즘의 이해
딥러닝을 통한 이미지 분석은 CNN 모델의 발전에 기인한다. 그만큼 현재 개발된 수많은 의학 이미지 분석 알고리즘은 CNN을 기반으로 만들어졌다[6]. 신경망(neural networks)은 인간 두뇌의 신경 구조를 따라 모델링한 알고리즘이다. 신경망에는 일련의 상호 연결된 레이어로 배열된 노드라고 불리는 수천에서 수백 만 개의 인공 뉴런이 포함된다. 신경망 구조 중 가장 많이 쓰이고 있는 것이 CNN과 순환 신경망(recurrent neural networks)이다. 따라서 임상의 입장에서 모든 알고리즘을 이해하기는 어렵겠지만 기본이 되는 CNN에 대해서 이해하는 것은 필요하다고 본다. 전술한 것처럼 CNN은 주로 이미지 분류 작업에 사용되며, 이미지의 공간정보를 유지한 채 학습을 한다는 것이 핵심 개념이다. CNN은 다음과 같은 주요 구성 요소로 이루어져 있다(Fig. 1).
입력 이미지
이미지 분류 작업의 시작점은 입력 이미지다. 즉, 본 종설에서 소개하는 연구들은 후두내시경 이미지다. CNN은 이 입력 이미지를 처리하여 해당 이미지가 어떤 클래스 또는 범주에 속하는지를 예측한다.
컨볼루션 레이어(Convolutional layer)
CNN의 첫번째 레이어는 컨볼루션 레이어다. 이 레이어에서는 입력 이미지에 여러 개의 컨볼루션 필터(Kernel, 커널)를 적용하여 특징 맵(feature map)을 생성한다. 각 필터는 이미지에서 다양한 시각적 특징을 감지한다.
활성화 함수(Activation function)
컨볼루션 레이어에서 생성된 특징 맵은 비선형성을 추가하기 위해 활성화 함수(예: ReLU, Sigmoid)를 적용한다. 이를 통해 모델은 더 복잡한 패턴을 학습할 수 있다.
풀링 레이어(Pooling layer)
풀링 레이어는 특징 맵의 공간 크기를 줄이는 역할을 한다. 일반적으로 맥스 풀링(Max Pooling)이 사용되며, 특징 맵의 각 영역에서 가장 큰 값을 선택하여 공간 해상도를 감소시킨다. 이는 계산 비용을 줄이고 모델의 강건성(robustness)을 향상시키는 효과를 얻는다.
완전 연결 레이어(Fully connected layer)
풀링 레이어 다음에는 하나 이상의 완전 연결 레이어가 이어진다. 이 레이어에서는 특징을 최종적인 출력으로 변환하는 데 사용된다. 출력 뉴런의 수는 모델이 해결하고자 하는 문제에 따라 다르며 일반적으로는 클래스 수에 해당한다.
출력 레이어(Output layer)
출력 레이어는 최종 예측을 생성하는데 사용된다. 암 또는 정상과 같은 이진 분류(binary classification) 문제인 경우 Sigmoid 활성화 함수가 일반적으로 사용되며, 성대 결절, 후두암, 성대 낭종 분류와 같은 다중 클래스 분류 문제인 경우 소프트맥스(Softmax) 활성화 함수를 사용한다.
훈련과 평가
CNN 모델은 훈련 데이터로 학습되며 검증 데이터나 테스트 데이터를 사용하여 모델의 성능을 평가한다. 평가 지표에는 정확도, 정밀도, 재현율 등이 포함될 수 있다.
CNN은 이미지 분류 작업에서 강력한 성능을 보이며 자동차 번호판 인식, 얼굴 인식, 동물 종류 분류 등 다양한 응용 분야에서 사용된다. 이러한 모델은 이미지의 공간적인 특성을 잘 이해하고 다룰 수 있어 시각적 데이터 처리에 효과적이다.
후두내시경의 AI 적용에 대한 문헌 검색
문헌 검색을 위해 MEDLINE에서 다음과 같은 검색어를 사용하여 2023년 9월까지 발표된 논문을 검색하였다.
artificial intelligence[tiab] OR AI[tiab] OR deep learning[tiab] OR machine learning[tiab] OR computer[tiab] OR neural network[tiab] OR CNN[tiab] OR automatic[tiab] OR automated[tiab] AND “vocal cord[MeSH Term]” OR “Larynx”
검색된 문헌 중 후두내시경으로부터 얻은 이미지나 비디오를 활용한 기계학습 또는 컴퓨터비전 인공 지능 모델을 개발하거나 검증한 연구를 선택하였다. 영어가 아닌 언어로 작성된 논문, 후두의 다른 영상검사를 이용한 경우, AI 모델을 사용하지 않은 경우의 리뷰 논문은 제외하였다(Table 1).
후두내시경 이미지를 통한 분류 모델 연구
AI 모델에서 분류(classification)는 이미지에 있는 객체의 클래스를 예측하는 작업이다. 분류 알고리즘의 역할은 주어진 세트의 이미지를 2개 이상의 그룹으로 분류하는 것이다. 이 때 분류의 출력은 이미지에 결정된 클래스를 할당하는 데이터 레이블이다. AI를 통한 후두내시경 이미지의 분류작업은 정상과 암을 분류할 뿐 아니라 성대에서 관찰되는 다양한 병변의 조직학 진단을 예측하는 소위 “optical biopsy”이다[7].
Cho 등[8]은 4106개의 cysts, nodules, polyps, leukoplakia, papillomas, Reinke’s edema, granulomas, palsies, 정상 후두내시경 이미지를 통해 각 레이블(label)을 분류하기 위해 trained deep convolution neural networks (DCNNs)를 개발하였다. 이 모델은 4명의 수련의의 판독과 비교하였을 시 우수한 성능을 보고하였으며, 특히 papilloma의 판별에서 F1 점수는 DNN (0.870)이 수련의(0.685)보다 훨씬 높았다. Cho와 Choi [9]는 다른 연구에서 후두내시경 비디오에서 캡처한 2216개의 이미지 데이터를 통해 4개의 CNN 모델 six layers(CNN6), VGG16, Inception V3, Xception models를 이용하여 정상과 비정상 성대를 감별하도록 학습하였다. 그 결과 정확도는 각각 8 2.3%, 9 9.7%, 9 9.1%, 8 3.8%로 여러개의 후두 병변을 분류하는 것보다 우수한 성능을 보였다.
이처럼 여러개의 후두 질환을 분류하는 성능보다는 암병변을 분류하는 이분법 모델의 성능이 뛰어난 것은 Dunham 등[10]의 연구 결과에서도 마찬가지다. 그들은 VGG16 기반의 CNN 모델을 이용해서 19353개의 라벨링된 이미지를 학습하였다. 그 결과 정상, nodules, papilloma, polyps, webs 등 5개의 양성 병변 이미지를 분류하는 모델은 accuracy=0.81; recall=0.70-0.88; precision=0.72-0.90의 성능을 보였고, 정상과 암 또는 전암성 병변을 분류하는 모델은 accuracy=0.93; recall=0.92-0.94; precision=0.92-0.94의 성능을 보고하였다. 이러한 결과에서 볼 수 있듯이 후두내시경 이미지에서 암 또는 전암성 병변을 분류하는 알고리즘은 우수한 성능이 보고되고 있으나 여러가지 후두의 양성 병변 분류 모델에서는 아직까지는 성능이 떨어지므로 앞으로 더 크고 다양한 학습 데이터셋의 필요성을 시사한다.
Xiong 등[11]은 DCNN 기반의 모델을 206명의 후두암 환자의 293개 이미지를 포함해서 전암성 후두 병변, 양성 후두 종양 및 정상 조직의 후두경 이미지 13721개를 사용하여 구축 및 학습시켰다. 또한 1176개의 후두경 이미지로 구성된 독립적인 테스트셋을 구축된 DCNN에 적용하여 평가했다. 그 결과 DCNN은 후두암과 전암성 병변을 분류하는데 있어서 sensitivity=0.73, specificity=0.92, area under the curve(AUC)=0.92, accuracy=0.87의 결과를 얻었다. 또한 독립적인 테스트셋에서 전문가의 판독 결과와 비교했을 때 sensitivity=0.72, specificity=0.95, AUC=0.95, accuracy=0.90으로 비슷한 수준의 성능을 보고하였다. Zhao 등[12]은 후두내시경 이미지를 통해 성대 질환을 진단하기 위해 DCNN 구조를 기저(backbone)로 하고 전이 학습(transfer learning)을 수행한 모델을 개발하였다. 전이 학습이란 적은 양의 데이터를 가진 경우에 대량의 데이터셋을 통해 사전 학습된 모델을 새로운 학습의 시작점으로 재사용하는 방법이다[13]. 이를 통해 적은 양의 데이터로도 높은 성능을 얻을 수 있다. 그 결과, 정상, 폴립, 각화증, 후두암을 분류하는 성능으로 accuracy=0.80, F1 score=0.78, AUC=0.96의 성능을 보고하였고 두 가지 즉, urgent(각화증, 후두암), non-urgent(정상, 폴립)를 분류하는 성능은 accuracy=0.93, sensitivity=0.88, specificity=0.99, AUC=0.98로 상당히 우수한 결과를 얻었다. Ren 등[14]은 현재까지 보고된 연구 중 가장 큰 데이터셋을 이용한 AI 분류 모델을 보고하였다. 24667개의 후두내시경 이미지를 통해 정상, nodule, polyp, leukoplakia, malignancy를 분류하기 위해 전이 학습과 CNN 기반의 ResNet-101 모델을 사용하였다. 그 결과 무작위로 선택된 테스트 데이터셋에서 12명의 이비인후과 전문의의 임상 시각적 평가와 비교했을 시 CNN 기반 분류 모델은 훨씬 더 뛰어난 성능을 보였다(nodules [98% vs. 45%], polyps [91% vs. 86%], leukoplakia [91% vs. 65%], and malignancy [90% vs. 54%]).
후두내시경 이미지를 통한 인식 모델 연구
AI 모델에서 인식이란 이미지에서 특정 물체의 위치를 식별하는 것을 의미한다. 객체가 위치화 된 후 해당 클래스에 따라 레이블이 지정되면 인식을 수행하게 된다. 출력 결과는 일반적으로 경계 상자(bounding box)라고 하는 개체 주위의 프레임이다. AI를 통한 후두내시경 인식 모델은 검사 중 이상 부위를 감지하고 이것의 특징을 예측하는 것이다.
Kim 등[15]은 후두내시경 이미지에서 양성 후두 종양의 의심 위치(suspicious position)를 감지하고, 이 양성 종양의 종류를 예측할 수 있는 모델을 제안하였다. CNN 기반의 Mask R-CNNs, You-Only-Look-Once (YOLO) V4, single-shot detector 모델을 적용하였으며 2183개의 이미지를 분석하였을 시 YOLO V4 모델에서 모든 양성 종양에 대해 가장 높은 F1-score를 얻었다(cyst=0.77, granuloma=0.99, leukoplakia=0.82, nodule=0.81, polyp=0.83). Wellenstein 등[16]은 저자 기관의 후두내시경 비디오, 사진 이미지 데이터셋과 open access 데이터셋인 “laryngoscope8”을 이용해서 실시간으로 후두암과 양성 성대 병변을 찾아내고 분류하는 알고리즘을 개발하였다. 후두암을 검출하고 분류하는 성능은 71%-78%의 sensitivity, 양성 성대 병변을 검출하고 분류하는 성능은 70%-82%의 sensitivity를 보고하였다. 무엇보다 평균 63 frame per second (FPS)을 보여 외래 임상 현장에서 실시간 인식에 대한 가능성을 보여주었다. FPS는 초당 알고리즘이 처리할 수 있는 프레임을 의미한다. 실시간 어플리케이션에서는 알고리즘이 이미지 프레임을 얼마나 빨리 처리하느냐가 중요한데 일반적인 내시경 비디오는 20-30 FPS를 처리하므로 25 FPS 이상의 모델은 실시간으로 간주할 수 있다.
대장 내시경과 같이 검사 관찰의 범위가 넓은 경우 polyp과 같은 병소를 인식하는 AI 모델은 일찍이 연구가 이루어져 많은 임상연구까지 진행되고 있다[17]. 그러나 이에 비해 후두 또는 성대의 관찰 범위는 작은 편이지만, 이러한 AI 기반의 인식 모델의 발달은 임상 현장에서 후두암의 조기 발견에 도움이 될 것이다.
후두내시경 이미지를 통한 분할 모델 연구
AI 기반 모델은 후두내시경 이미지 상에서 후두의 구조 및 병변의 경계를 자동으로 묘사(delineating)하는데 사용할 수 있다. 분할은 디지털 이미지를 이미지 영역 또는 이미지 개체(pixel 집합)라고도 하는 여러 이미지 segment로 분할하는 프로세스다[18]. 분할은 이미지를 더 의미있고 분석하기 쉬운 것으로 단순화 또는 변경하기 위해 시행한다.
Ji 등[19]은 후두 백반증의 감지와 분할을 위해 후두내시경 이미지 데이터셋을 이용하여 BM-Net 구조의 딥러닝 모델을 개발하였다. 이 모델은 기존에 이미지 데이터의 분할에 주로 쓰이는 U-Net, M-Net 그리고 순환 컨볼루션 레이어를 기반으로 만들어졌다. 이 모델의 accuracy=0.99, recall=0.89, precision=0.74, F1 score=0.78로 우수한 성능을 보고하였다. Ding 등[20]은 후두경 이미지를 이용한 computer-aided 진단 시스템의 가장 첫번째 단계인 성대 분할을 위해 U-Net with color normalization operation (CN-DA-Unet)을 개발하였다. 이를 통해 색이 다른 여러 이미지를 분석함에 따른 문제를 해결하고 입력 이미지와 출력 이미지가 같은 end-to-end segmentation을 할 수 있게 되었다. 저자들은 이 모델을 내부 데이터셋에서 검증하여 dice coefficient=92.9%, sensitivity=93.5%, precision=92.6%를 보고하였다.
Narrow-band imaging (NBI) 데이터 분석 모델 연구
딥러닝 모델에서 후두내시경 데이터를 이용할 때 어려움 중의 하나가 이미지의 흐릿함(blurring), 빛의 반사, 점액 등의 분비물, 광원에 의한 이슈이다. 따라서 이러한 문제들로 인해 여러 연구자들은 백색광 내시경 대신에 NBI 프레임을 이용해서 분석하고 분류하는 알고리즘을 개발하였다. NBI는 일반 후두내시경(white light) 이미지에 비해 앞서 서술한 검사 시 발생한 여러 artifact에 의한 noise를 줄이고 주요 이미지를 선택하고 추출할 수 있다는 장점이 있다[7].
Araújo 등[21]은 후두의 NBI 데이터셋에 ResNet v2 with 101 layers, Inception v4, Inception-ResNet v2 등의 pretrained CNN 모델을 통해 특징을 추출해서 support vector machines 알고리즘을 이용해서 정상, 전암성 병변, 조기 후두암을 분류하였다. 그후 벤치마크 데이터셋에서 평가한 결과 recall=98%의 성능을 보고하였다. Azam 등[22]은 YOLO DCNN을 기반으로 일반 후두내시경(white light)과 NBI 데이터를 이용해서 후두암을 실시간 인식하는 모델을 개발하였다. 그 결과 precision=0.66, recall=0.62의 성능을 보였으며, 38.5 FPS의 빠른 이미지 처리 속도를 보고하였다. He 등[23]은 4591 환자의 NBI scan 데이터셋과 3458개의 후두 병리 이미지를 이용해서 DCNN 기반의 Inception V3를 통한 후두암의 진단 모델을 보고하였다. NBI 데이터에서는 독립테스트 세트에서 AUC=0.84, 병리 이미지 데이터에서는 AUC=0.98의 성능을 보고하여 이미지 데이터와 병리 이미지 모두에서 효과적임을 보였다.
현재 AI를 통한 후두내시경 이미지 분석의 한계 및 나아갈 방향
굴곡성 후두내시경은 많은 양의 이미지를 생산할 수 있어 딥러닝을 적용하기에 이상적이다. 그러나 후두경 이미지를 학습시키기 위해서는 이미지를 조립하고, 정보를 주는 프레임을 추출하는데 시간과 노력이 많이 필요하다는 한계가 있었다. 이전 연구에서도 여러 명의 전문가에 의해 수 만개의 이미지들을 검토하는 과정이 거쳐져야 했다[11,14]. 그러나 최근에는 후두경 비디오상의 후두 이미지를 자동 분류하기 위해 end-to-end framework의 핵심 구성 요소인 automatic informative frame 선택을 위한 딥러닝 모델도 구축되고 있다[22].
딥러닝 모델의 잘 알려진 단점 중의 하나가 내부 작업의 이해없이 입력과 결과만 주어지는 “블랙박스” 현상이다. 이는 딥러닝의 알고리즘 중 히든레이어를 분석하는 것이 너무 어렵기 때문이다. 특히 의학 분야에서 AI 모델을 사용하는 경우에는 결과 도출에 대한 모델의 의사결정 과정이 설명 가능하고 임상적으로도 적절해야 하기 때문에 이러한 문제는 해결해야 할 부분이었다. 최근 Gradient-Weighted Class Activation Mapping (Grad-CAM)을 통해 CNN 기반 모델의 결정에 대한 시각적 설명을 생성하여 모델 투명성을 향상시키는 기술이 활발히 적용되고 있다[24]. 후두내시경을 통한 이미지의 분류 모델에서도 이러한 Grad-CAM이 적용되어 분류기에 가장 정보를 주는 부위를 표시해주고 있어서 어느 부위가 분류 결정에 중요한 역할을 하였는지 식별할 수 있게 되었다[25].
대부분 지금까지 발표된 후두내시경 AI 모델의 성능은 내부 검증 결과인 경우가 많다. 때문에 일반화가 어려우며 외부 검증에서 낮은 성능을 보여 과적합일 가능성이 높다. 따라서 향후 상용화를 고려한다면 전향적 연구 디자인으로 외부 검증이 필수적이다.
아직 AI를 통한 후두내시경 이미지의 분석 모델이 임상현장에서 바로 쓰이기는 이르다. 실제 임상 적용을 위한 모델을 개발하기 위해서는 후두내시경 분야보다 먼저 활발한 연구가 이루어지고 있었던 소화기내시경 AI 모델 개발의 현황을 살펴볼 필요가 있다. 2020년 미국 소화기내시경 학회에서는 임상에서 사용 가능한 위장관 내시경 AI 모델 개발을 위한 입장성명을 발표하였다. 이에 따르면 내시경 AI 모델은 임상 성능을 향상하고, 더 나은 치료 계획을 수립하며 환자의 결과를 개선할 수 있어야 한다고 제안했다[26]. 이를 비추어 볼 때 현재 후두내시경의 AI 모델이 임상 현장에서 실제로 음성 장애 환자의 진단과 치료에 얼마나 도움을 줄 수 있을지에 대해서는 논의와 고민이 필요하다. 아직 후두내시경 AI 모델 연구는 보다 향상된 성능의 모델 개발에 집중되어 있으나 앞으로는 개발된 AI 모델의 임상적 유용성에 대한 검증을 위한 노력과 연구가 필요할 것이다.
결 론
AI를 적용하여 후두내시경 이미지로 후두암, 양성 후두 질환의 분류, 인식, 분할을 수행한 모델에서 우수한 성능을 보고하였다. 최근 후두내시경 이미지 AI 모델은 실시간 진단과 분석이 가능하고 설명가능한 분류 모델의 개발이 이루어지고 있다. 그러나 아직 독립적 외부 데이터셋을 통한 검증 결과가 부족하며 임상적 유용성에 대한 연구가 필요하다. 그러나, 향후 후두내시경 기법 및 기술의 발달과 함께 AI 분석 모델 성능 또한 향상될 가능성이 높으며 이를 통한 이비인후과 의사의 임상의사결정 지원의 도구로 널리 쓰일 것으로 예측된다.
Acknowledgements
None
Notes
Funding Statement
이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(RS-2023-00241230).
Conflicts of Interest
The author has no financial conflicts of interest.