후두내시경을 이용한 후두 병변 진단의 인공지능 적용

Application of Artificial Intelligence to Diagnosis of Laryngeal Lesions Using Laryngoscopy

Article information

J Korean Soc Laryngol Phoniatr Logop. 2023;34(3):71-78
Publication date (electronic) : 2023 December 29
doi : https://doi.org/10.22469/jkslp.2023.34.3.71
Department of Otolaryngology-Head and Neck Surgery, Kyung Hee University School of Medicine, Kyung Hee University Hospital at Gangdong, Seoul, Korea
이영찬orcid_icon
경희대학교 의과대학 강동경희대학교병원 이비인후과학교실
Corresponding Author Young Chan Lee, MD, PhD Department of Otolaryngology-Head and Neck Surgery, Kyung Hee University School of Medicine, Kyung Hee University Hospital at Gangdong, 892 Dongnam-ro, Gangdong-gu, Seoul 05278, Korea Tel +82-2-440-8726 Fax+82-2-440-6296 E-mail medchan@khu.ac.kr
Received 2023 November 2; Revised 2023 November 22; Accepted 2023 December 2.

Trans Abstract

Laryngeal diseases have a significant impact on quality of life and often require timely and accurate diagnosis for effective management. Conventional methods of diagnosis, such as manual inspection of laryngoscopic images, have limitations in terms of accuracy and efficiency. The integration of artificial intelligence (AI) and machine learning techniques in laryngoscopic image analysis has emerged as a promising approach to enhance diagnostic accuracy, streamline workflow, and improve patient outcomes. This review paper provides an in-depth analysis of the recent advancements in AI-driven laryngoscopic image analysis for the diagnosis of laryngeal diseases, also covering methodologies, challenges, and future prospects.

서 론

머신러닝은 예제 데이터로부터 학습한 후 새로운 데이터에 대한 예측을 수행할 수 있는 알고리즘이며, 딥러닝은 머신러닝의 하위 개념으로 대량의 데이터로부터 패턴을 학습하여 이를 기반으로 인공 신경망을 사용하여 예측한다[1,2]. 인공지능(artificial intelligence, AI)은 머신러닝, 딥러닝을 포함하는 가장 큰 개념으로 인간의 학습 능력과 추론 능력, 지각 능력 등을 컴퓨터 시스템을 통해 수행할 수 있게 하는 기술을 의미한다. 지난 수년간 컴퓨터 기술의 발전과 지속적인 대단위 데이터셋의 등장, 컨볼루션 신경망(convolutional neural network, CNN) 기술의 적용으로 AI의 적용 분야는 이미지 인식 및 음성 처리 분야에서 크게 발전하고 있다[3]. 특히 AI는 의학 이미지 분야, 특히 대장내시경, 안저촬영 영상, X-ray, CT 등의 데이터를 이용하여 진단을 예측하는데 성공적인 결과를 보고하고 있다[4].

이비인후과 영역에서도 이미지 데이터에 AI를 접목하려는 노력이 있어 왔으며, 특히 후두음성언어의학 분야에서는 후두내시경 영상을 분석하는 연구가 활발히 이루어지고 있다. 후두내시경, 특히 굴곡성 내시경은 이비인후과의사에 의해서 가장 많이 행해지고 있는 술기 중의 하나로 비강, 비인두, 구인두, 후두, 하인두의 구조물을 관찰할 수 있으며, 딥러닝 모델 학습을 위해 풍부한 이미지 데이터를 제공할 수 있다. AI를 이용한 후두내시경 분석의 적용 범위는 성대 점막의 진동분석, 병변 인식 및 진단, 성대 움직임 평가, 후두 구조물의 인식 및 특징화, 주요 프레임 선택 등이 있다[5]. 본 종설에서는 임상의에게 중요한 후두내시경을 이용한 후두 병변의 진단에 있어서 AI 적용 모델에 국한하여 살펴보고자 한다.

이를 위해 이미지 데이터 분석에 쓰이는 딥러닝 모델의 기본 개념을 기술하고, 현재까지 보고된 AI를 통한 후두내시경 이미지 분석에 대한 연구들을 정리하고 한계와 앞으로 나아가야 할 부분을 임상의의 관점에서 기술하고자 한다.

본 론

후두내시경 이미지 분석 모델에 쓰이는 딥러닝 알고리즘의 이해

딥러닝을 통한 이미지 분석은 CNN 모델의 발전에 기인한다. 그만큼 현재 개발된 수많은 의학 이미지 분석 알고리즘은 CNN을 기반으로 만들어졌다[6]. 신경망(neural networks)은 인간 두뇌의 신경 구조를 따라 모델링한 알고리즘이다. 신경망에는 일련의 상호 연결된 레이어로 배열된 노드라고 불리는 수천에서 수백 만 개의 인공 뉴런이 포함된다. 신경망 구조 중 가장 많이 쓰이고 있는 것이 CNN과 순환 신경망(recurrent neural networks)이다. 따라서 임상의 입장에서 모든 알고리즘을 이해하기는 어렵겠지만 기본이 되는 CNN에 대해서 이해하는 것은 필요하다고 본다. 전술한 것처럼 CNN은 주로 이미지 분류 작업에 사용되며, 이미지의 공간정보를 유지한 채 학습을 한다는 것이 핵심 개념이다. CNN은 다음과 같은 주요 구성 요소로 이루어져 있다(Fig. 1).

Fig. 1.

The framework of the convolution neural network (CNN).

입력 이미지

이미지 분류 작업의 시작점은 입력 이미지다. 즉, 본 종설에서 소개하는 연구들은 후두내시경 이미지다. CNN은 이 입력 이미지를 처리하여 해당 이미지가 어떤 클래스 또는 범주에 속하는지를 예측한다.

컨볼루션 레이어(Convolutional layer)

CNN의 첫번째 레이어는 컨볼루션 레이어다. 이 레이어에서는 입력 이미지에 여러 개의 컨볼루션 필터(Kernel, 커널)를 적용하여 특징 맵(feature map)을 생성한다. 각 필터는 이미지에서 다양한 시각적 특징을 감지한다.

활성화 함수(Activation function)

컨볼루션 레이어에서 생성된 특징 맵은 비선형성을 추가하기 위해 활성화 함수(예: ReLU, Sigmoid)를 적용한다. 이를 통해 모델은 더 복잡한 패턴을 학습할 수 있다.

풀링 레이어(Pooling layer)

풀링 레이어는 특징 맵의 공간 크기를 줄이는 역할을 한다. 일반적으로 맥스 풀링(Max Pooling)이 사용되며, 특징 맵의 각 영역에서 가장 큰 값을 선택하여 공간 해상도를 감소시킨다. 이는 계산 비용을 줄이고 모델의 강건성(robustness)을 향상시키는 효과를 얻는다.

완전 연결 레이어(Fully connected layer)

풀링 레이어 다음에는 하나 이상의 완전 연결 레이어가 이어진다. 이 레이어에서는 특징을 최종적인 출력으로 변환하는 데 사용된다. 출력 뉴런의 수는 모델이 해결하고자 하는 문제에 따라 다르며 일반적으로는 클래스 수에 해당한다.

출력 레이어(Output layer)

출력 레이어는 최종 예측을 생성하는데 사용된다. 암 또는 정상과 같은 이진 분류(binary classification) 문제인 경우 Sigmoid 활성화 함수가 일반적으로 사용되며, 성대 결절, 후두암, 성대 낭종 분류와 같은 다중 클래스 분류 문제인 경우 소프트맥스(Softmax) 활성화 함수를 사용한다.

훈련과 평가

CNN 모델은 훈련 데이터로 학습되며 검증 데이터나 테스트 데이터를 사용하여 모델의 성능을 평가한다. 평가 지표에는 정확도, 정밀도, 재현율 등이 포함될 수 있다.

CNN은 이미지 분류 작업에서 강력한 성능을 보이며 자동차 번호판 인식, 얼굴 인식, 동물 종류 분류 등 다양한 응용 분야에서 사용된다. 이러한 모델은 이미지의 공간적인 특성을 잘 이해하고 다룰 수 있어 시각적 데이터 처리에 효과적이다.

후두내시경의 AI 적용에 대한 문헌 검색

문헌 검색을 위해 MEDLINE에서 다음과 같은 검색어를 사용하여 2023년 9월까지 발표된 논문을 검색하였다.

artificial intelligence[tiab] OR AI[tiab] OR deep learning[tiab] OR machine learning[tiab] OR computer[tiab] OR neural network[tiab] OR CNN[tiab] OR automatic[tiab] OR automated[tiab] AND “vocal cord[MeSH Term]” OR “Larynx”

검색된 문헌 중 후두내시경으로부터 얻은 이미지나 비디오를 활용한 기계학습 또는 컴퓨터비전 인공 지능 모델을 개발하거나 검증한 연구를 선택하였다. 영어가 아닌 언어로 작성된 논문, 후두의 다른 영상검사를 이용한 경우, AI 모델을 사용하지 않은 경우의 리뷰 논문은 제외하였다(Table 1).

Summary of studies using artificial intelligence in the laryngoscopic image analysis

후두내시경 이미지를 통한 분류 모델 연구

AI 모델에서 분류(classification)는 이미지에 있는 객체의 클래스를 예측하는 작업이다. 분류 알고리즘의 역할은 주어진 세트의 이미지를 2개 이상의 그룹으로 분류하는 것이다. 이 때 분류의 출력은 이미지에 결정된 클래스를 할당하는 데이터 레이블이다. AI를 통한 후두내시경 이미지의 분류작업은 정상과 암을 분류할 뿐 아니라 성대에서 관찰되는 다양한 병변의 조직학 진단을 예측하는 소위 “optical biopsy”이다[7].

Cho 등[8]은 4106개의 cysts, nodules, polyps, leukoplakia, papillomas, Reinke’s edema, granulomas, palsies, 정상 후두내시경 이미지를 통해 각 레이블(label)을 분류하기 위해 trained deep convolution neural networks (DCNNs)를 개발하였다. 이 모델은 4명의 수련의의 판독과 비교하였을 시 우수한 성능을 보고하였으며, 특히 papilloma의 판별에서 F1 점수는 DNN (0.870)이 수련의(0.685)보다 훨씬 높았다. Cho와 Choi [9]는 다른 연구에서 후두내시경 비디오에서 캡처한 2216개의 이미지 데이터를 통해 4개의 CNN 모델 six layers(CNN6), VGG16, Inception V3, Xception models를 이용하여 정상과 비정상 성대를 감별하도록 학습하였다. 그 결과 정확도는 각각 8 2.3%, 9 9.7%, 9 9.1%, 8 3.8%로 여러개의 후두 병변을 분류하는 것보다 우수한 성능을 보였다.

이처럼 여러개의 후두 질환을 분류하는 성능보다는 암병변을 분류하는 이분법 모델의 성능이 뛰어난 것은 Dunham 등[10]의 연구 결과에서도 마찬가지다. 그들은 VGG16 기반의 CNN 모델을 이용해서 19353개의 라벨링된 이미지를 학습하였다. 그 결과 정상, nodules, papilloma, polyps, webs 등 5개의 양성 병변 이미지를 분류하는 모델은 accuracy=0.81; recall=0.70-0.88; precision=0.72-0.90의 성능을 보였고, 정상과 암 또는 전암성 병변을 분류하는 모델은 accuracy=0.93; recall=0.92-0.94; precision=0.92-0.94의 성능을 보고하였다. 이러한 결과에서 볼 수 있듯이 후두내시경 이미지에서 암 또는 전암성 병변을 분류하는 알고리즘은 우수한 성능이 보고되고 있으나 여러가지 후두의 양성 병변 분류 모델에서는 아직까지는 성능이 떨어지므로 앞으로 더 크고 다양한 학습 데이터셋의 필요성을 시사한다.

Xiong 등[11]은 DCNN 기반의 모델을 206명의 후두암 환자의 293개 이미지를 포함해서 전암성 후두 병변, 양성 후두 종양 및 정상 조직의 후두경 이미지 13721개를 사용하여 구축 및 학습시켰다. 또한 1176개의 후두경 이미지로 구성된 독립적인 테스트셋을 구축된 DCNN에 적용하여 평가했다. 그 결과 DCNN은 후두암과 전암성 병변을 분류하는데 있어서 sensitivity=0.73, specificity=0.92, area under the curve(AUC)=0.92, accuracy=0.87의 결과를 얻었다. 또한 독립적인 테스트셋에서 전문가의 판독 결과와 비교했을 때 sensitivity=0.72, specificity=0.95, AUC=0.95, accuracy=0.90으로 비슷한 수준의 성능을 보고하였다. Zhao 등[12]은 후두내시경 이미지를 통해 성대 질환을 진단하기 위해 DCNN 구조를 기저(backbone)로 하고 전이 학습(transfer learning)을 수행한 모델을 개발하였다. 전이 학습이란 적은 양의 데이터를 가진 경우에 대량의 데이터셋을 통해 사전 학습된 모델을 새로운 학습의 시작점으로 재사용하는 방법이다[13]. 이를 통해 적은 양의 데이터로도 높은 성능을 얻을 수 있다. 그 결과, 정상, 폴립, 각화증, 후두암을 분류하는 성능으로 accuracy=0.80, F1 score=0.78, AUC=0.96의 성능을 보고하였고 두 가지 즉, urgent(각화증, 후두암), non-urgent(정상, 폴립)를 분류하는 성능은 accuracy=0.93, sensitivity=0.88, specificity=0.99, AUC=0.98로 상당히 우수한 결과를 얻었다. Ren 등[14]은 현재까지 보고된 연구 중 가장 큰 데이터셋을 이용한 AI 분류 모델을 보고하였다. 24667개의 후두내시경 이미지를 통해 정상, nodule, polyp, leukoplakia, malignancy를 분류하기 위해 전이 학습과 CNN 기반의 ResNet-101 모델을 사용하였다. 그 결과 무작위로 선택된 테스트 데이터셋에서 12명의 이비인후과 전문의의 임상 시각적 평가와 비교했을 시 CNN 기반 분류 모델은 훨씬 더 뛰어난 성능을 보였다(nodules [98% vs. 45%], polyps [91% vs. 86%], leukoplakia [91% vs. 65%], and malignancy [90% vs. 54%]).

후두내시경 이미지를 통한 인식 모델 연구

AI 모델에서 인식이란 이미지에서 특정 물체의 위치를 식별하는 것을 의미한다. 객체가 위치화 된 후 해당 클래스에 따라 레이블이 지정되면 인식을 수행하게 된다. 출력 결과는 일반적으로 경계 상자(bounding box)라고 하는 개체 주위의 프레임이다. AI를 통한 후두내시경 인식 모델은 검사 중 이상 부위를 감지하고 이것의 특징을 예측하는 것이다.

Kim 등[15]은 후두내시경 이미지에서 양성 후두 종양의 의심 위치(suspicious position)를 감지하고, 이 양성 종양의 종류를 예측할 수 있는 모델을 제안하였다. CNN 기반의 Mask R-CNNs, You-Only-Look-Once (YOLO) V4, single-shot detector 모델을 적용하였으며 2183개의 이미지를 분석하였을 시 YOLO V4 모델에서 모든 양성 종양에 대해 가장 높은 F1-score를 얻었다(cyst=0.77, granuloma=0.99, leukoplakia=0.82, nodule=0.81, polyp=0.83). Wellenstein 등[16]은 저자 기관의 후두내시경 비디오, 사진 이미지 데이터셋과 open access 데이터셋인 “laryngoscope8”을 이용해서 실시간으로 후두암과 양성 성대 병변을 찾아내고 분류하는 알고리즘을 개발하였다. 후두암을 검출하고 분류하는 성능은 71%-78%의 sensitivity, 양성 성대 병변을 검출하고 분류하는 성능은 70%-82%의 sensitivity를 보고하였다. 무엇보다 평균 63 frame per second (FPS)을 보여 외래 임상 현장에서 실시간 인식에 대한 가능성을 보여주었다. FPS는 초당 알고리즘이 처리할 수 있는 프레임을 의미한다. 실시간 어플리케이션에서는 알고리즘이 이미지 프레임을 얼마나 빨리 처리하느냐가 중요한데 일반적인 내시경 비디오는 20-30 FPS를 처리하므로 25 FPS 이상의 모델은 실시간으로 간주할 수 있다.

대장 내시경과 같이 검사 관찰의 범위가 넓은 경우 polyp과 같은 병소를 인식하는 AI 모델은 일찍이 연구가 이루어져 많은 임상연구까지 진행되고 있다[17]. 그러나 이에 비해 후두 또는 성대의 관찰 범위는 작은 편이지만, 이러한 AI 기반의 인식 모델의 발달은 임상 현장에서 후두암의 조기 발견에 도움이 될 것이다.

후두내시경 이미지를 통한 분할 모델 연구

AI 기반 모델은 후두내시경 이미지 상에서 후두의 구조 및 병변의 경계를 자동으로 묘사(delineating)하는데 사용할 수 있다. 분할은 디지털 이미지를 이미지 영역 또는 이미지 개체(pixel 집합)라고도 하는 여러 이미지 segment로 분할하는 프로세스다[18]. 분할은 이미지를 더 의미있고 분석하기 쉬운 것으로 단순화 또는 변경하기 위해 시행한다.

Ji 등[19]은 후두 백반증의 감지와 분할을 위해 후두내시경 이미지 데이터셋을 이용하여 BM-Net 구조의 딥러닝 모델을 개발하였다. 이 모델은 기존에 이미지 데이터의 분할에 주로 쓰이는 U-Net, M-Net 그리고 순환 컨볼루션 레이어를 기반으로 만들어졌다. 이 모델의 accuracy=0.99, recall=0.89, precision=0.74, F1 score=0.78로 우수한 성능을 보고하였다. Ding 등[20]은 후두경 이미지를 이용한 computer-aided 진단 시스템의 가장 첫번째 단계인 성대 분할을 위해 U-Net with color normalization operation (CN-DA-Unet)을 개발하였다. 이를 통해 색이 다른 여러 이미지를 분석함에 따른 문제를 해결하고 입력 이미지와 출력 이미지가 같은 end-to-end segmentation을 할 수 있게 되었다. 저자들은 이 모델을 내부 데이터셋에서 검증하여 dice coefficient=92.9%, sensitivity=93.5%, precision=92.6%를 보고하였다.

Narrow-band imaging (NBI) 데이터 분석 모델 연구

딥러닝 모델에서 후두내시경 데이터를 이용할 때 어려움 중의 하나가 이미지의 흐릿함(blurring), 빛의 반사, 점액 등의 분비물, 광원에 의한 이슈이다. 따라서 이러한 문제들로 인해 여러 연구자들은 백색광 내시경 대신에 NBI 프레임을 이용해서 분석하고 분류하는 알고리즘을 개발하였다. NBI는 일반 후두내시경(white light) 이미지에 비해 앞서 서술한 검사 시 발생한 여러 artifact에 의한 noise를 줄이고 주요 이미지를 선택하고 추출할 수 있다는 장점이 있다[7].

Araújo 등[21]은 후두의 NBI 데이터셋에 ResNet v2 with 101 layers, Inception v4, Inception-ResNet v2 등의 pretrained CNN 모델을 통해 특징을 추출해서 support vector machines 알고리즘을 이용해서 정상, 전암성 병변, 조기 후두암을 분류하였다. 그후 벤치마크 데이터셋에서 평가한 결과 recall=98%의 성능을 보고하였다. Azam 등[22]은 YOLO DCNN을 기반으로 일반 후두내시경(white light)과 NBI 데이터를 이용해서 후두암을 실시간 인식하는 모델을 개발하였다. 그 결과 precision=0.66, recall=0.62의 성능을 보였으며, 38.5 FPS의 빠른 이미지 처리 속도를 보고하였다. He 등[23]은 4591 환자의 NBI scan 데이터셋과 3458개의 후두 병리 이미지를 이용해서 DCNN 기반의 Inception V3를 통한 후두암의 진단 모델을 보고하였다. NBI 데이터에서는 독립테스트 세트에서 AUC=0.84, 병리 이미지 데이터에서는 AUC=0.98의 성능을 보고하여 이미지 데이터와 병리 이미지 모두에서 효과적임을 보였다.

현재 AI를 통한 후두내시경 이미지 분석의 한계 및 나아갈 방향

굴곡성 후두내시경은 많은 양의 이미지를 생산할 수 있어 딥러닝을 적용하기에 이상적이다. 그러나 후두경 이미지를 학습시키기 위해서는 이미지를 조립하고, 정보를 주는 프레임을 추출하는데 시간과 노력이 많이 필요하다는 한계가 있었다. 이전 연구에서도 여러 명의 전문가에 의해 수 만개의 이미지들을 검토하는 과정이 거쳐져야 했다[11,14]. 그러나 최근에는 후두경 비디오상의 후두 이미지를 자동 분류하기 위해 end-to-end framework의 핵심 구성 요소인 automatic informative frame 선택을 위한 딥러닝 모델도 구축되고 있다[22].

딥러닝 모델의 잘 알려진 단점 중의 하나가 내부 작업의 이해없이 입력과 결과만 주어지는 “블랙박스” 현상이다. 이는 딥러닝의 알고리즘 중 히든레이어를 분석하는 것이 너무 어렵기 때문이다. 특히 의학 분야에서 AI 모델을 사용하는 경우에는 결과 도출에 대한 모델의 의사결정 과정이 설명 가능하고 임상적으로도 적절해야 하기 때문에 이러한 문제는 해결해야 할 부분이었다. 최근 Gradient-Weighted Class Activation Mapping (Grad-CAM)을 통해 CNN 기반 모델의 결정에 대한 시각적 설명을 생성하여 모델 투명성을 향상시키는 기술이 활발히 적용되고 있다[24]. 후두내시경을 통한 이미지의 분류 모델에서도 이러한 Grad-CAM이 적용되어 분류기에 가장 정보를 주는 부위를 표시해주고 있어서 어느 부위가 분류 결정에 중요한 역할을 하였는지 식별할 수 있게 되었다[25].

대부분 지금까지 발표된 후두내시경 AI 모델의 성능은 내부 검증 결과인 경우가 많다. 때문에 일반화가 어려우며 외부 검증에서 낮은 성능을 보여 과적합일 가능성이 높다. 따라서 향후 상용화를 고려한다면 전향적 연구 디자인으로 외부 검증이 필수적이다.

아직 AI를 통한 후두내시경 이미지의 분석 모델이 임상현장에서 바로 쓰이기는 이르다. 실제 임상 적용을 위한 모델을 개발하기 위해서는 후두내시경 분야보다 먼저 활발한 연구가 이루어지고 있었던 소화기내시경 AI 모델 개발의 현황을 살펴볼 필요가 있다. 2020년 미국 소화기내시경 학회에서는 임상에서 사용 가능한 위장관 내시경 AI 모델 개발을 위한 입장성명을 발표하였다. 이에 따르면 내시경 AI 모델은 임상 성능을 향상하고, 더 나은 치료 계획을 수립하며 환자의 결과를 개선할 수 있어야 한다고 제안했다[26]. 이를 비추어 볼 때 현재 후두내시경의 AI 모델이 임상 현장에서 실제로 음성 장애 환자의 진단과 치료에 얼마나 도움을 줄 수 있을지에 대해서는 논의와 고민이 필요하다. 아직 후두내시경 AI 모델 연구는 보다 향상된 성능의 모델 개발에 집중되어 있으나 앞으로는 개발된 AI 모델의 임상적 유용성에 대한 검증을 위한 노력과 연구가 필요할 것이다.

결 론

AI를 적용하여 후두내시경 이미지로 후두암, 양성 후두 질환의 분류, 인식, 분할을 수행한 모델에서 우수한 성능을 보고하였다. 최근 후두내시경 이미지 AI 모델은 실시간 진단과 분석이 가능하고 설명가능한 분류 모델의 개발이 이루어지고 있다. 그러나 아직 독립적 외부 데이터셋을 통한 검증 결과가 부족하며 임상적 유용성에 대한 연구가 필요하다. 그러나, 향후 후두내시경 기법 및 기술의 발달과 함께 AI 분석 모델 성능 또한 향상될 가능성이 높으며 이를 통한 이비인후과 의사의 임상의사결정 지원의 도구로 널리 쓰일 것으로 예측된다.

Acknowledgements

None

Notes

Funding Statement

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(RS-2023-00241230).

Conflicts of Interest

The author has no financial conflicts of interest.

References

1. Liu Y, Chen PC, Krause J, Peng L. How to read articles that use machine learning: users’ guides to the medical literature. JAMA 2019;322(18):1806–16.
2. Hinton G. Deep learning—a technology with the potential to transform health care. JAMA 2018;320(11):1101–2.
3. Esteva A, Robicquet A, Ramsundar B, Kuleshov V, DePristo M, Chou K, et al. A guide to deep learning in healthcare. Nat Med 2019;25(1):24–9.
4. Rajkomar A, Dean J, Kohane I. Machine learning in medicine. N Engl J Med 2019;380(14):1347–58.
5. Yao P, Usman M, Chen YH, German A, Andreadis K, Mages K, et al. Applications of artificial intelligence to office laryngoscopy: a scoping review. Laryngoscope 2022;132(10):1993–2016.
6. Tama BA, Kim DH, Kim G, Kim SW, Lee S. Recent advances in the application of artificial intelligence in otorhinolaryngology-head and neck surgery. Clin Exp Otorhinolaryngol 2020;13(4):326–39.
7. Sampieri C, Baldini C, Azam MA, Moccia S, Mattos LS, Vilaseca I, et al. Artificial intelligence for upper aerodigestive tract endoscopy and laryngoscopy: a guide for physicians and state-of-the-art review. Otolaryngol Head Neck Surg 2023;169(4):811–29.
8. Cho WK, Lee YJ, Joo HA, Jeong IS, Choi Y, Nam SY, et al. Diagnostic accuracies of laryngeal diseases using a convolutional neural network-based image classification system. Laryngoscope 2021;131(11):2558–66.
9. Cho WK, Choi SH. Comparison of convolutional neural network models for determination of vocal fold normality in laryngoscopic images. J Voice 2022;36(5):590–8.
10. Dunham ME, Kong KA, McWhorter AJ, Adkins LK. Optical biopsy: automated classification of airway endoscopic findings using a convolutional neural network. Laryngoscope 2022;132(Suppl 4):S1–8.
11. Xiong H, Lin P, Yu JG, Ye J, Xiao L, Tao Y, et al. Computer-aided diagnosis of laryngeal cancer via deep learning based on laryngoscopic images. EBioMedicine 2019;48:92–9.
12. Zhao Q, He Y, Wu Y, Huang D, Wang Y, Sun C, et al. Vocal cord lesions classification based on deep convolutional neural network and transfer learning. Med Phys 2022;49(1):432–42.
13. Mukhlif AA, Al-Khateeb B, Mohammed MA. An extensive review of state-of-the-art transfer learning techniques used in medical imaging: open issues and challenges. J Intell Syst 2022;31(1):1085–111.
14. Ren J, Jing X, Wang J, Ren X, Xu Y, Yang Q, et al. Automatic recognition of laryngoscopic images using a deep-learning technique. Laryngoscope 2020;130(11):E686-–93.
15. Kim GH, Hwang YJ, Lee H, Sung ES, Nam KW. Convolutional neural network-based vocal cord tumor classification technique for homebased self-prescreening purpose. Biomed Eng Online 2023;22(1):81.
16. Wellenstein DJ, Woodburn J, Marres HAM, van den Broek GB. Detection of laryngeal carcinoma during endoscopy using artificial intelligence. Head Neck 2023;45(9):2217–26.
17. Areia M, Mori Y, Correale L, Repici A, Bretthauer M, Sharma P, et al. Cost-effectiveness of artificial intelligence for screening colonoscopy: a modelling study. Lancet Digit Health 2022;4(6):e436–44.
18. Castiglioni I, Rundo L, Codari M, Di Leo G, Salvatore C, Interlenghi M, et al. AI applications to medical images: from machine learning to deep learning. Phys Med 2021;83:9–24.
19. Ji B, Ren J, Zheng X, Tan C, Ji R, Zhao Y, et al. A multi-scale recurrent fully convolution neural network for laryngeal leukoplakia segmentation. Biomed Signal Process Control 2020;59:101913.
20. Ding H, Cen Q, Si X, Pan Z, Chen X. Automatic glottis segmentation for laryngeal endoscopic images based on U-Net. Biomed Signal Process Control 2022;71:103116.
21. Araújo T, Santos CP, De Momi E, Moccia S. Learned and handcrafted features for early-stage laryngeal SCC diagnosis. Med Biol Eng Comput 2019;57(12):2683–92.
22. Azam MA, Sampieri C, Ioppi A, Africano S, Vallin A, Mocellin D, et al. Deep learning applied to white light and narrow band imaging videolaryngoscopy: toward real-time laryngeal cancer detection. Laryngoscope 2022;132(9):1798–806.
23. He Y, Cheng Y, Huang Z, Xu W, Hu R, Cheng L, et al. A deep convolutional neural network-based method for laryngeal squamous cell carcinoma diagnosis. Ann Transl Med 2021;9(24):1797.
24. Selvaraju RR, Cogswell M, Das A, Vedantam R, Parikh D, Batra D. Grad-CAM: visual explanations from deep networks via gradientbased localization. In : Proceedings of the IEEE International Conference on Computer Vision (ICCV); 2017 Oct 22-29; Venice, Italy. IEEE; 2017. p. 618–26.
25. Yao P, Witte D, Gimonet H, German A, Andreadis K, Cheng M, et al. Automatic classification of informative laryngoscopic images using deep learning. Laryngoscope Investig Otolaryngol 2022;7(2):460–6.
26. Berzin TM, Parasa S, Wallace MB, Gross SA, Repici A, Sharma P. Position statement on priorities for artificial intelligence in GI endoscopy: a report by the ASGE task force. Gastrointest Endosc 2020;92(4):951–9.
27. Yan P, Li S, Zhou Z, Liu Q, Wu J, Ren Q, et al. Automated detection of glottic laryngeal carcinoma in laryngoscopic images from a multicentre database using a convolutional neural network. Clin Otolaryngol 2023;48(3):436–41.

Article information Continued

Fig. 1.

The framework of the convolution neural network (CNN).

Table 1.

Summary of studies using artificial intelligence in the laryngoscopic image analysis

Author & year Type of artificial intelligence Type of endoscopy image Aim of study No. of cases No. of images in the case Outcomes
Araújo et al. (2019)[21] Pre-trained CNN ResNet v2 with 101 layers, Inception v4, Inception-ResNet v2 Classification using SVM NBI Classification into four tissue classes: healthy tissue, tissue with hypertrophic vessels, tissue with leukoplakia, and IPCL (tissue with intrapapillary capillary loops) 33 1320 Median classification recall=98%
Xiong et al. (2019)[11] Inception V3 Laryngoscopy Classification of laryngeal lesions (cancer, precancerous, benign, normal) 2208 14897 2-class classification: Accuracy=0.86–0.89; AUC=0.92
4-class classification: Accuracy=0.74–0.77
Ji et al. (2020)[19] Boldface Multi-scale Net Laryngoscopy Segmentation of leukoplakia 649 Accuracy=0.99; recall=0.89; precision=0.74; F1 score=0.78; IoU=0.83
Dunham et al. (2022)[10] VGG16 Laryngoscopy 2-class (benign or malignant) and 5-class (normal, nodule, papilloma, polyp, web) classification 19353 2-class: Accuracy=0.93; recall=0.92–0.94; precision=0.92–0.94
5-class: Accuracy=0.81; recall=0.70–0.88; precision=0.72–0.90
Ren et al. (2020)[14] ResNet-101 Laryngoscopy Classification of laryngeal neoplasma 9231 24667 Accuracy=0.96; sensitivity=0.89–0.99; specificity=0.99
Cho et al. (2021)[8] EfficientNet, Inception V3, MobileNet V2, VGG16 Laryngoscopy Classification into normal larynx, cysts, nodules, polyps, leukoplakia, laryngeal papillomas, Reinke’s edema, granulomas and vocal cord palsies 4106 4106 F1 score=0.71–0.94; AUC=0.97–1.00
He et al. (2021)[23] Inception V3 NBI Laryngeal SCC diagnosis 4591 4591 Accuracy=0.91; sensitivity=0.90; specificity=0.91; AUC=0.84
Azam et al. (2022)[22] YOLO V5 (WL and NBI) Laryngeal SCC detection 657 Mean average precision=0.66; recall=0.62;
Cho and Choi (2022)[9] CNN with 6 layers, VGG16 Laryngoscopy Classification into normal and abnormal vocal fold tissue 2216 2216 Accuracy=0.82–1.00; AUC=0.90–1.00
Zhao et al. (2022)[12] MobileNet V2 Laryngoscopy 4-class (normal, polyp, keratinization, carcinoma) vs. 2-class (urgent, nonurgent) 5122 4-class: Accuracy=0.80; F1 score=0.78; AUC=0.96
2-class: Accuracy=0.93, sensitivity=0.88, specificity=0.99, AUC=0.98
Ding et al. (2022)[20] CNDA-Unet Laryngoscopy Segmentation of the glottal space 928 DSC=0.93; sensitivity=0.93; specificity=0.93
Wellenstein et al. (2023)[16] YOLO V5s Laryngoscopy Real-time localization and classification of both vocal cord carcinoma and benign vocal cord lesions 2002 Vocal cord carcinoma: sensitivity=71%–78%; Benign vocal cord lesion: sensitivity= 70%–82%
Kim et al. (2023)[15] Mask R-CNN Laryngoscopy Detection of laryngeal masses and vocal folds 2183 Highest F1 score for all tumor types (0.77, cyst; 0.99, granuloma; 0.82, leukoplakia; 0.81, nodule; and 0.83, polyp)
Yan et al. (2023)[27] Faster R-CNN Laryngoscopy Classification into benign fold lesion and malignant lesion 2179 2179 Overall accuracy=78.05%; NPV=95.63%; PPV=32.51%

SVM, support vector machine; NBI, narrow-band imaging; CNN, convolutional neural network; ML, machine learning; IPCL, intrapapillary capillary loops; AUC, area under the curve; SCC, squamous cell carcinoma; YOLO, You-Only-Look-Once; WL, white light; CNDA-Unet, Unet with color normalization operation; TP, true positive; DSC, dice coefficient score; NPV, negative predictive value; PPV, positve predictive value