AbstractBackground and ObjectivesVoice disorders can significantly impact quality of life. This study evaluates the feasibility of using deep learning models to detect voice disorders using an opensource dataset.
Materials and MethodWe utilized the Saarbrücken Voice Database, which contains 1231 voice recordings of various pathologies. Datasets were used for training (n=1036) and validation (n=195). Key vocal parameters, including fundamental frequency (F0), formants (F1, F2), harmonics-to-noise ratio, jitter, and shimmer, were analyzed. A convolutional neural network (CNN) was designed to classify voice recordings into normal, vox senilis, and laryngocele. Performance was assessed using precision, recall, F1-score, and accuracy.
ResultsThe CNN model demonstrated high classification performance, with precision, recall, and F1-scores of 1.00 for normal and 0.99 for vox senilis and laryngocele. Accuracy reached 1.00 after 50 epochs and remained stable through 100 epochs. Time-frequency analysis supported the model’s ability to differentiate between classes.
서 론후두 및 음성장애에 초점을 맞춘 의학 전문 분야인 후두음성의학은 다양한 음성장애와 질환을 진단하고 치료하는데 중요한 역할을 한다[1,2]. 이러한 장애는 발성 기능에 영향을 미쳐 환자의 삶의 질에 중대한 결과를 초래할 수 있다[2]. 임상환경에서 시행하는 후두경 검사, 청각 지각 평가와 같은 정밀 진단 방법은 검증되었으며, 효과적이지만 시간이 많이 걸리며 모든 임상 환경에서 접근 가능한 것은 아닐 수 있다[2]. 또한, 이러한 방법은 음성장애가 미묘하거나 시간이 지남에 따라 느리게 진행되는 경우 대상 환자의 적기의 진찰과 치료에 대하여 방법과 시간적 관점에서 효율적이지 않을 수 있다.
인공지능(artificial intelligence, AI)의 발전으로 음성장애의 탐지 및 진단을 개선할 수 있는 새로운 연구들이 수행되고 있다[3]. 방대한 양의 데이터를 처리하고 복잡한 패턴을 학습할 수 있는 딥러닝 모델은 영상의학 등을 포함한 여러 의학 분야에서 잠재력을 보여주고 있다[4]. 후두음성의학 분야에서는 음성 녹음 분석, 성대 움직임 이상 감지, 다양한 유형의 음성장애 분류와 같은 작업을 위해 AI 기반 시스템이 연구되었다[3]. Verde 등[3]은 음성장애인 발성장애에 초점을 맞추고, 머신 러닝(machine learning)을 이용한 모바일 건강 시스템이 음성 병리를 감지하는데 도움이 될 수 있음을 연구하였다. 이 인공지능 시스템은 더 빠르고 정확하며 접근성이 높은 진단 도구의 잠재력을 보여주었다. 그러나 이러한 유망한 개발에도 불구하고 대규모 레이블이 지정된 데이터 세트의 필요성, 음성 특성의 다양성, 실제 임상 환경의 복잡성과 같이 광범위한 임상 채택을 방해하는 한계가 여전히 존재한다[5]. 그리고 현행 연구는 대부분 통제된 환경으로 제한되거나 소규모 데이터 세트를 기반으로 하므로, 다양한 임상적 맥락에서 인공지능 모델의 일반화 가능성과 정확성에 대한 인식이 필요하다.
최근 몇 년 동안 오픈 소스 데이터 세트와 딥 러닝 프레임워크를 이용하여, 연구자와 임상의가 AI 기반 진단 보조 도구를 개발하여 임상에서의 활용성을 먼저 평가할 수 있게 되었다[3]. 이러한 리소스는 실제 임상 환경에서 딥러닝 모델의 사용 가능성을 탐구할 수 있는 귀중한 기회를 제공한다.
따라서 이 예비 연구의 목적은 오픈 소스 데이터와 함께 딥러닝 기술을 사용하여 음성장애를 감지하는 것의 타당성을 평가하는 것이다. 임상 환경에서 딥러닝 모델의 성능을 평가함으로써, 구현에 대한 잠재적 장벽을 파악하고 이러한 도구를 현재 진단 워크플로에 통합할 수 있는 방법을 탐구하고자 한다.
대상 및 방법데이터셋Saarbru¨cken Voice Database는 72가지 이상의 음성 병리학적 상태를 가진 2000명 이상의 사람들의 음성 녹음을 수집한 공개적으로 사용 가능한 데이터베이스이다[6]. 2041개의 샘플, 16세에서 80세까지의 다양한 연령대의 음성 샘플, 71개의 음성 병리를 포함하고 있다. 각 음성 병리에 대한 샘플 수는 다르며 일부 병리의 경우 샘플이 하나만 있을 수 있다. 이번 연구에서는 1초 이하의 사운드 파일(*.wav, 100-110 KB/개)을 사용하였으며, 각 음성 샘플에는 50 kHz 및 16비트 해상도로 녹음된 모음(/a/, /i/, /u/)이 포함되어 있다.
이 데이터셋을 이용하여 음성 테스트 케이스에 대한 음성 평가 지표를 분석하였으며, 딥러닝 학습과 평가를 위하여 훈련용 1036개, 밸리데이션용 195개, 총 1231개를 사용하였다(Fig. 1). 이때, 훈련 데이터셋의 비율(%)은 normal, vox senilis, laryngocele에 대하여 각각 50:40:10이며, 밸리데이션셋은 40:30:30이다.
음성 평가 지표 분석이 연구에서는 테스트 음성 데이터에 대한 F0, F1, F2, 배음대소음비율(harmonics-to-noise ratio, HNR), 주파수변동률(jitter), 진폭변동률(shimmer)을 평가하였다[7-10]. 기본 주파수 F0는 음성의 피치를 나타내며 Hz 단위이다[10]. 낮은 F0는 음성이 저음임을 나타낸다. 첫번째 포먼트 F1은 모음의 질과 관련된 성도(vocal tract)의 첫번째 공명 주파수를 나타낸다[10]. 두번째 포먼트 F2는 공명 주파수로, 모음의 질을 평가하는데 도움이 된다[10]. F1과 같이 F2는 성도 구성에 대한 분석을 제공할 수 있다. HNR은 고조파(목소리의 선명한 톤)와 소음(숨소리 또는 쉰 목소리)의 비율을 측정한 것이다[9]. Jitter는 주기마다(cycle-to-cycle) 주파수 변화를 측정하는 데, 이는 음성 안정성의 지표이다[9]. Shimmer는 주기에서 주기로의 진폭 변화를 측정하는데, 이는 음성의 전체 볼륨이나 강도에 영향을 미친다[9]. 따라서, 이 연구에서는 음성 생성과 연관된 파라미터들을 이용하여 음성 품질의 정량적 평가를 위하여, 주파수 분석 뿐 아니라 시간 영역에서의 음질 평가를 시행하였다.
딥러닝 모델링이 연구에서는 3가지로 분류된 음성의 종류를 예측하여 분류하기 위해, 합성곱 신경망(convolutional neural network, CNN)을 설계하였다(Table 1). 각 네트워크는 일련의 합성곱 계층(Conv2D)을 거치며, 각 계층은 배치 정규화를 거쳐 안정화하고 학습 속도를 높인다. 첫번째 합성곱 블록은 32개 필터로 피처를 추출한 다음, 최대 풀링을 통해 공간 차원을 줄인다. 네트워크가 깊어짐에 따라 후속 Conv2D 계층의 필터 수(64, 128, 256)가 늘어나 네트워크가 다양한 추상화 수준에서 점점 더 복잡한 피처를 캡처할 수 있다. 각 합성곱 후에 배치 정규화를 적용하여 학습을 강화하고 최대 풀링을 통해 차원을 더욱 줄였다. 그런다음 네트워크는 전역 평균 풀링 계층을 사용하여 공간 차원을 단일 벡터로 통합하여 학습된 데이터의 특징(feature)을 요약한다. 최종적으로, 세개의 출력 단위가 있는 Dense 레이어는 네트워크가 세개의 클래스로 분류 작업을 수행하고 있음을 나타낸다(Table 1).
평가 지표딥러닝 모델이 양성으로 분류한 모든 인스턴스 중 참 양성 예측(양성 클래스의 올바르게 식별된 인스턴스)의 비율을 측정하는 정밀도(precision)와 데이터 세트의 모든 실제 양성 인스턴스(즉, 양성 사례의 총 수) 중 참 양성 예측(양성 클래스의 올바르게 식별된 인스턴스)의 비율을 측정하는 재현율(recall)을 측정하였다[11]. 그리고, 정밀도와 재현율의 조화 평균으로, 둘 사이의 균형을 평가하는 F1 점수(F1-score)를 평가하였다. 또한, 모델의 훈련 과정(epochs)에의 정확도(accuracy)를 추가로 산출하였다.
결 과음성 평가 지표 분석음성 파일(/a/ sound, ‘아’ 음성)에 대한 시간-주파수 영역에서 분석 결과를 도식화하였다(Fig. 2). Fig. 2A는 normal 음성으로써, 2500 Hz 이하에서 음성 강도(2 dB)가 시간축에 균일하게 분포되어 있으며 시간-주파수 음성 영역 전체에서 잡음 성분(noise, -10 dB 청색점들)이 발견되지 않고 있다. 그러나, vox senilis와 laryngocele 케이스에서는 5000 Hz 이하에서 음성강도가 분균일하고, 음성 전체에 잡음(-10 dB 청색점들)이 관찰되고 있다(log magnitude in dB) (Fig. 2B and C).
Table 2는 동일한 케이스들(/a/ sound, ‘아’ 음성)에 대하여 정밀한 음성 소리 분석을 시행한 결과이다. 이 연구의 모델을 통한 음성 검출 분류에서 normal, vox senilis, laryngocele 케이스에 대한 분류 정확도는 모두 레이블에 정확한 판별을 시행하였다(Table 2).
음성 파라미터의 경우, 정상 음성(normal)은 F0, F1, F2, HNR, jitter, shimmer 값을 측정했다. Vox senilis에서는 약간 낮은 F0 및 증가된 HNR과 같은 노화를 반영하는 몇 가지 변화를 보이지만 음성 가변성(jitter, shimmer)은 감소한다. Laryngocele에서는 더 낮은 F0 (더 깊은 음성), 더 낮은 포먼트(F1 및 F2), jitter의 더 큰 불안정성을 포함한 수치를 보여준다.
딥러닝 모델 평가 지표합성곱 신경망 모델의 혼동 행렬(confusion matrix)과 모델링 정확도를 측정하였다(Fig. 3). 밸리데이션 셋트에 대하여 정밀도, 재현율, F1-점수를 각각 입력 클래스(normal, vox senilis, laryngocele)에 대하여 측정하였다(Table 3). Normal 그룹에 대하여 정밀도, 재현율, F1-점수는 각각 1.00, 1.00, 1.00으로 계산되었으며, 음성 입력에 대한 딥러닝 처리 결과가 높은 예측 분류의 성능을 보였다. Vox senilis, laryngocele의 경우, F1-점수는 0.99로 정밀도와 재현율 사이에서 높은 균형을 보였다(Fig. 3A and Table 3).
모델링을 수행하는 동안의 정확도를 측정하였다(Fig. 3B). 50 epochs를 상회하는 지점부터 1.00의 정확도를 달성하였으며, 100 epochs를 훈련하는 동안 1.00에 수렴하는 것으로 계산되었다.
고 찰CNN을 이용한 음성 질환 검출합성곱 신경망(CNN)은 여러 합성곱 계층을 활용하여 음성 특징을 컴퓨터 연산을 이용하여 학습하여 이미지, 음성 및 시계열 신호와 같은 데이터를 처리하도록 설계된 딥러닝 모델이다[12]. 음성장애 감지의 맥락에서 합성곱 신경망(CNN)은 스펙트로그램 또는 원시 오디오 파형을 분석하여 정상 및 장애 음성과 관련된 의미있는 음향 특징을 추출하게 된다. 이때, 합성곱 신경망의 주요 장점 중 하나는 컴퓨터 연산을 통한 방법으로, 음성 특징 추출을 수행하여 효율적인 연산 방식을 적용하며, 음성장애와 관련된 주파수 패턴, 피치 변화 및 스펙트럼 변화를 효과적으로 포착할 수 있다는 것이다[13].
또한 합성곱 신경망은 패턴 인식에 뛰어나 쉰 목소리나 숨소리와 같은 미묘한 음성장애를 식별하는데 높은 정확도를 제공한다[12]. 비록 음성 녹음 환경의 영향을 받을 수 있으며 소음을 제거해야 하는 전처리 과정이 필요할 수 있으나, 합성곱 신경망을 이용한 모델링은 질환의 음성 특성 검증에 유효하다[12,13]. 합성곱 신경망은 또한 확장성이 뛰어나 ResNet 또는 VGG와 같은 사전 학습된 모델을 사용하여 전이 학습의 이점을 얻을 수 있으며, 음성장애 감지를 위해 미세 조정하여 학습 시간을 줄이고 성능을 향상시킬 수 있다[12]. 합성곱 신경망은 스펙트로그램을 분석하는데 특히 효과적이므로, 이미지 인식에 사용되는 기술을 활용하여 관련 음성 특징을 추출할 수 있으며, 음향 분석을 기반으로 음성장애를 진단하는 강력한 도구가 될 수 있다[4].
음성장애의 검출 가능성이 연구는 오픈 소스 음성 데이터를 활용하여 높은 정확도로 음성장애를 감지하기 위해 딥러닝 모델을 사용하는 것이 가능하다는 것을 확인하였다[6]. Table 3과 Fig. 3의 결과에 따르면 합성곱 신경망(CNN)은 모든 범주에서 0.99 이상의 F1 점수를 달성하여 정상적인 음성과 병적인 음성을 효과적으로 분류할 수 있었다. 이러한 결과는 이비인후과에서 AI 기반 진단 보조 시스템으로써의 잠재력을 갖을 수 있음을 의미하며, 특히 음성장애 감지의 접근성과 효율성을 개선하는데 도움이 될 수 있음을 확인하였다.
이번 연구 모델의 주요 장점 중 하나는 최소한의 인원 사용으로, 대용량 데이터 세트를 처리하고 의미있는 음성 특징을 추출할 수 있다는 것이다. F0, F1, F2, HNR, jitter, shimmer와 같은 음성 매개변수를 사용하면 음성 특성을 포괄적으로 분석할 수 있으며, 전체적인 진단 보조 시스템의 보다 높은 성능에 기여할 수 있었다. 특히 합성곱 신경망(CNN) 모델의 높은 정확도는 딥러닝이 의학적 전문 지식, 인적 구성원의 필요성(임상 전문가들), 상당한 시간 투자가 필요한 후두경 검사 및 지각적 음성 평가와 같은 기존 진단 방법에 대한 진단 보조 시스템으로써의 대안을 제공할 수 있음을 시사한다[3].
이 연구 결과의 또 다른 특징은 음성의 소리 분석을 통하여 세부적인 특징을 파악한 것이다(Table 2)[2]. 만약, 동일한 환자의 정상, 연령 관련 음성 변화 과정에서의 데이터를 모두 확보하여 이를 분석한다면, 정상 음성 F0와 비교하여, vox senilis (연령 관련 음성 변화)는 F0가 감소하였다면, 노화와 함께 종종 발생하는 음성이 다소 낮아짐을 판별하는데 도움이 될 수 있다[14]. 또한, laryngocele는 F0를 통하여 발성 장치의 물리적 변화로 인해 음성이 변화했음을 판별할 수 있다. Vox senilis의 F1은 공명이 증가하거나 노화로 인해 성도 구성이 바뀌었음을 나타낼 수 있다. 만약, laryngocele F1이 변화한다면 후두의 구조적 변화를 감지할 수 있다. 이는 더 많은 숨소리와 음조 및 볼륨의 불규칙성을 포함하여 laryngocele이 음성 품질(vocal quality)에 미치는 구조적 영향을 파악할 수 있음을 시사한다[9].
이러한 유망한 결과에도 불구하고 몇 가지 제한 사항을 고려해야 한다. 이 연구는 공개적으로 이용 가능한 데이터 세트에 의존했으며, 이는 임상 현장에서 환자들의 음성장애의 다양성을 완전히 나타내지 못할 수 있다. 녹음 조건, 환자 인구 통계 및 음성 병리의 다양성은 실제 환경으로의 모델의 일반화 가능성에 영향을 미칠 수 있다.
이 연구는 오픈 소스를 활용하였으므로, 특정 임상 기관에 도입하여 성능을 발휘하는데 한계가 존재한다. 즉, 이 모델은 통제된 환경에서 높은 성능을 달성했지만, 광범위한 구현을 위해서는 더 크고 다양한 임상 데이터 세트에 대한 추가 검증이 필요하다. 이런 단점을 보완하기 위하여, 기관의 특화된 음성 기록을 바탕으로 동일한 연구 방법을 적용하여 모델링하는 과정이 해결책이 될 수 있다. 그럼에도 불구하고, 단일 기관의 경우는 범용적 정확도를 확보하는데 한계가 있을 것이므로 다기관 연구를 통한 데이터셋 확보를 통한 연구도 가능한 방안이 될 수 있다.
향후 연구는 데이터 세트 다양성 확대, AI 모델을 임상 워크플로에 통합, 딥러닝 프레임워크 최적화 연구를 시행할 수 있다.
결 론우리는 오픈 소스 데이터 세트를 사용하여 음성장애를 탐지하는데 있어 딥러닝 모델의 잠재적 가능성을 확인하였다. 합성곱 신경망(CNN)의 높은 분류 성능은 AI 기반 접근 방식이 이비인후과에서 효과적인 진단 보조 도구로 사용될 수 있음을 시사한다. 기본 주파수, 포먼트, HNR, jitter, shimmer 와 같은 음성 매개변수를 활용하여 이 모델은 높은 정확도로 정상 음성과 병적 음성을 구별할 수 있었다.
그러나, 데이터 세트의 제한된 다양성은 더 광범위한 환자 집단에 대한 모델의 일반화 가능성에 영향을 미칠 수 있고, 음성 녹음 조건과 음성 병리의 실제 변동성이 고려되어야 한다. 향후 연구는 AI 기반 진단 보조 도구로써, 임상 워크플로에 통합하고, 모델 아키텍처 최적화, 실제 임상 데이터셋의 사용에 중점을 둘 수 있다.
NOTESEthics Statement This study was not subject to IRB review or exemption as it used only publicly available, de-identified data sets. No IRB approval or exemption number is applicable. Funding Statement This work was supported by the National Research Foundation of Korea, grant No. 2021R1C1C1012392 (to JK Cho). Authors’ Contribution Conceptualization: Kwang Hyeon Kim, Jae-Keun Cho. Formal analysis: Kwang Hyeon Kim. Investigation: Kwang Hyeon Kim, Jae-Keun Cho. Supervision: Jae-Keun Cho. Software: Kwang Hyeon Kim. Writing—original draft: Kwang Hyeon Kim. Writing—review & editing: Kwang Hyeon Kim, Jae-Keun Cho. Approval of final manuscript: Jae-Keun Cho. Fig. 1.A research flowchart for detecting vocal disorder using convolutional neural networks, acoustic parameter, and time-frequency analysis. HNR, harmonics-to-noise ratio. ![]() Fig. 2.Time-frequency analysis results for normal, vox senilis, and laryngocele cases. A: Normal case. B: Vox senilis case. C: Laryngocele cases. Upper is time domain graph and lower is frequency domain graph. Yellow is highest amplitude for vocal sound. ![]() Table 1.Convolutional neural networks model architecture for this study Each layer represents a distinct computational operation that transforms input data through different processing stages. The resizing layer standardizes input dimensions by adjusting the size of the input image to 128×128×1, ensuring consistency in feature extraction. The Conv2D layers apply learnable filters to detect spatial features such as edges and textures, with each filter producing an activation map that highlights relevant patterns. Batch normalization normalizes activations across a mini-batch, stabilizing training and improving convergence by reducing internal covariate shifts. Max pooling downsamples feature maps by selecting the maximum value within a region, reducing spatial dimensions while preserving critical features and enhancing computational efficiency. The dropout layer randomly deactivates a fraction of neurons during training to prevent overfitting and improve model generalization. The dense layer acts as a fully connected layer, integrating extracted features to make predictions, with the last dense layer producing the final classification output Table 2.Vocal sound analysis of a test case for normal, vox senilis, and laryngocele Table 3.Performance metrics using a confusion matrix for the deep learning
Precision measures the proportion of correctly identified cases out of all instances predicted for a given class, indicating how reliable the model is when it classifies a sample as belonging to that class. Recall, also known as sensitivity, represents the proportion of correctly identified cases out of all actual instances of that class, showing the model’s ability to capture true positives. The F1-score is the harmonic mean of precision and recall, balancing both metrics to provide a single performance measure, especially useful when the dataset is imbalanced. Support refers to the number of actual instances in each class, providing context on how many samples were used to compute these metrics, ensuring that performance evaluation is representative of real-world data distribution REFERENCES2. Martins RH, do Amaral HA, Tavares EL, Martins MG, Gonçalves TM, Dias NH. Voice disorders: etiology and diagnosis. J Voice 2016;30(6):761.e1-9.
![]() ![]() 3. Verde L, De Pietro G, Sannino G. Voice disorder identification by using machine learning techniques. IEEE Access 2018;6:16246-55.
![]() 4. Egger J, Gsaxner C, Pepe A, Pomykala KL, Jonske F, Kurz M, et al. Medical deep learning—a systematic meta-review. Comput Methods Programs Biomed 2022;221:106874.
![]() ![]() 5. Aliferis C, Simon G. Lessons learned from historical failures, limitations and successes of AI/ML in healthcare and the health sciences. Enduring problems, and the role of best practices. In: Simon GJ, Aliferis C, editors. Artificial intelligence and machine learning in health care and medical sciences: best practices and pitfalls. 1st ed. Cham: Springer; 2024. p.543-606.
6. Woldert-Jokisz B. Saarbruecken voice database. Saarbrücken: Institute of Phonetics, Saarland University;2007.
7. Georgiou GP, Kaskampa A. Differences in voice quality measures among monolingual and bilingual speakers. Ampersand 2024;12:100175.
![]() 8. Xiu N, Li W, Liu L, Liu Z, Cai Z, Li L, et al. A study on voice measures in patients with Parkinson’s disease. J Voice 2024;S0892-1997(24)00168-1.
![]() ![]() 9. Teixeira JP, Fernandes PO. Jitter, shimmer and HNR classification within gender, tones and vowels in healthy voices. Proc Technol 2014;16:1228-37.
![]() 10. Story BH. Mechanisms of voice production. In: Redford MA, editor. The handbook of speech production. 1st ed. Chichester: John Wiley & Sons;2015. p.34-58.
11. Goutte C, Gaussier E. A probabilistic interpretation of precision, recall and F-score, with implication for evaluation. In: Losada DE, Fernández-Luna JM, editors. Advances in information retrieval (ECIR 2005). 1st ed. . Berlin, Heidelberg: Springer;2005. p.345-59.
12. Peng X, Xu H, Liu J, Wang J, He C. Voice disorder classification using convolutional neural network based on deep transfer learning. Sci Rep 2023;13(1):7264.
![]() ![]() ![]() ![]() |
|