머신러닝 분석을 통한 일측성 성대마비 진단
Prediction of Unilateral Vocal Cord Paralysis Patients Through Machine Learning Analysis of Acoustic Parameters: A Preliminary Study
Article information
Trans Abstract
Background and Objectives
The purpose of this study is to evaluate value of diagnostic tool for vocal cord palsy utilizing artificial intelligence without laryngoscope
Materials and Method
A dataset consisting of recordings from patients with unilateral vocal cord paralysis (n=54) as well as normal individuals (n=163). The dataset included prolonged pronunciations of the vowels /ah/, /u/, /i/, and vocal cord data from paralyzed patients. Various acoustic parameters such as Mel-frequency cepstral coefficients, jitter, shimmer, harmonics-to-noise ratio, and fundamental frequency statistics were analyzed. The classification of vocal cord paralysis encompassed paralysis status, paralysis degree, and paralysis location. The deep learning model employed the leave-one-out method, and the feature set with the highest performance was selected using the following methods.
Results
Vocal Cord Paralysis Classifier: The classifier accurately distinguished normal voice from vocal cord paralysis, achieving an accuracy and F1 score of 1.0. Paralysis Location Classifier: The classifier accurately differentiated between median and paramedian vocal cord paralysis, achieving an accuracy and micro F1 score of 1.0. Breathiness Degree Classifier: The classifier achieved an accuracy of 0.795 and a mean absolute error of 0.2857 in distinguishing different degrees of breathiness.
Conclusion
Although the small sample size raises concerns of potential overfitting, this preliminary study highlights distinctive acoustic features in cases of unilateral vocal fold paralysis compared to those of normal individuals. These findings suggest the feasibility of determining the presence, degree, and location of paralysis through the utilization of acoustic parameters. Further research is warranted to validate and expand upon these results.
서 론
성대마비는 바이러스 감염, 특발성, 의인성 손상, 악성종양의 침윤, 중추신경계 이상 등 다양한 원인에 의해 발생할 수 있다[1-3]. 성문을 포함한 후두의 악성종양이나 미주신경 및 되돌이 후두신경 주변의 두경부, 폐, 식도의 원발 혹은 전이암에 의해 성대마비가 발생할 수 있으며, 이러한 악성종양이 다른 증상이나 징후없이 성대마비로 인한 목소리 변성으로 처음 진단이 되는 경우도 흔히 경험한다[4-6]. 두경부 영역에서 발생한 악성종양은 일반적으로 예후가 좋지 않아 빠른 진단이 중요하다. 악성종양에 의한 성대마비는 목소리 변성을 야기하는 경우가 많은데 현재로써는 진단을 위해서는 후두내시경을 통한 시각적 진단이 필요하다. 즉 의심 증상이 있어도 이비인후과를 방문하여 내시경을 통한 육안적 평가가 이루어지지 않는다면 성대마비를 진단하기 힘들고 따라서 악성종양의 진단 및 치료가 지연되어 예후가 더욱더 불량해질 수 밖에 없게 된다.
최근 인공지능이 다양한 방면에서 지속적인 발전을 이룩하고 있고 이는 의학에서도 마찬가지이다. 음성과 관련된 인공지능 또한 계속 발전하고 있는데, 음성의 변화를 파악하여 질환의 여부를 감별해내려는 노력이 진행중에 있다[7-9]. 본 저자들 또한 인공지능을 활용한 음성 분석을 통하여 후두내시경 등 시각적인 진단없이 음성 질환을 진단하려는 연구를 진행 중이며, 그 일환으로 음성 변화를 야기하는 여러가지 음성 질환 중 상대적으로 임상적인 중요성이 크다고 판단한 성대마비에 대한 인공지능 장치의 진단적 가치에 대해 평가해 보았으며 그 결과를 보고하고자 한다.
대상 및 방법
실험 대상
2020년 1월부터 2022년 1월까지 본 검사실에 방문한 환자 217명을 대상으로 하였으며 일측성 성대마비군 54명, 정상음성군 163명이 포함되었다. 성대마비로 진단받은 환자를 대상으로 의무기록, 후두내시경, 후두스트로보스코피를 후향적으로 검토하였다. 음성 샘플은 첫 방문 혹은 수술이나 중재 전의 자료를 사용하였다. 남성 25명(58.1±11.21), 여성 29명(62.4±13.1)이었다. 정상 음성 대상자들은 음성장애를 호소하지 않고 음성병리적으로 문제가 없는 대상자들 중 GRBAS에서 G가 0에 해당되는 사람들로 선정하였다. 남성은 75명(52.2±16.7), 여성은 88명(56.5±13.5)이었다. 성대마비 환자와 정상 음성 대상자들은 모두 신경학적, 심리적, 청각적으로 문제가 없었으며 전문적인 보컬 트레이닝을 받거나 전문 보컬리스트는 포함되지 않았다. 본 연구는 대상자들에게 연구의 목적을 설명하고 사전동의를 구하였으며 의학연구윤리 심의위원회 심의를 거쳐 진행되었다(KNUCH IRB No. 2019-01-006-010).
음성 데이터 수집 및 절차
배경 소음이 40 dB 미만으로 통제된 조용한 공간에서 음성 데이터를 수집하였다. 음성 데이터는 Computerized Speech Lab (CSL, MODEL 4500, Kay Pentax, USA) 프로그램 중 Multi-Dimensional Voice Program을 이용하였으며 표본 추출률은 44000 Hz, 양자화는 16 bit로 설정하였다. 모든 대상자들은 의자에 편안하게 앉은 상태에서 90도로 고정된 Shure-Prolog SM48 마이크를 입에서 10 cm 정도 거리를 두고 모음 /아/, /이/, /우/를 약 3초간 발성하였다. 연구자는 환자의 음성이 가장 잘 반영되었다고 판단되는 1.5초 구간을 음성 데이터로 수집하였다.
수집된 음성 데이터를 기식성의 정도에 따라 기식성이 없을 때를 0, 기식성이 조금 관찰되었을 때를 1, 기식성이 보통으로 관찰되었을 때를 2, 기식성이 많이 관찰되었을 때를 3으로 하여 4점 척도로 분류하였다. 후두내시경과 후두스트로보스피로 성대마비 위치를 확인하였고 발성 시 마비성대가 정중앙에 위치하면 정중위(median), 발성 시 양측 성대돌기 사이의 거리가 3 mm 이하인 부정중위(paramedian), 양측 성대돌기 사이의 거리가 3 mm 이상인 중간위(intermediate)로 나누었다[10]. 분류 과제는 10년 이상의 임상 경험이 있는 언어재활사와 본 연구의 1저자가 함께 하였으며 처음 분류 작업 이후 학습 효과를 배제하기 위하여 4주 뒤 재분류를 하여 12개의 범주로 나누었다(Table 1). 평가자 내 신뢰도는 0.92와 0.94였고 평가자 간 신뢰도는 급내상관계수 0.90이었다.
실험 방법
Feature 추출
선행연구[11]에서 제시한 내용 중 모음 /아/, /이/, /우/를 이용하여 추출할 수 있는 feature 일부를 발췌하여 사용하였다. Spectral feature로 Mel-frequency cepstral coefficient (MFCC)를 이용하였고 pitch feature로 사용한 F0는 F0의 평균값, 표준편차, 최소값, 최대값, 중앙값, 25분위수, 75분위 수를 사용하였다. Voice quality feature로는 jitter, shimmer, harmonic to noise ratio를 사용하였다. Pitch와 voice quality는 Praat으로 추출하였다.
음성 분석
추출된 각 feature들을 사용하여 집단 간 확률분포의 차이를 정량화하기 위한 지표로 sliced wasserstein distance를 사용하였다. 숫자가 클수록 해당 feature가 두 그룹 간 차이를 잘 표현해 준다고 할 수 있지만 feature는 종류나 규모 등에 영향을 받기 때문에 절대적인 수의 크기에 초점을 두기보다는 경향성을 살피는 것이 일반적인 해석 방법이다.
음성 분석은 Table 1에서 제시한 바와 같이 각 클래스별로 데이터 수의 편차가 있고 일부 클래스에서는 존재하지 않는 데이터도 있어서 마비 위치에 따른 분석과 기식성 정도에 따른 분석을 각기 시행하도록 하였다. 마비 위치에 따라 정중위, 부정중위, 중간위로 구분하였으나 중간위에 속하는 사람은 두 명으로 이는 중간위 그룹에서 나타나는 평균적 특징이 아닌 개인 특성일 가능성이 있어서 제외하였다. 즉, 정상, 정중위, 부정중위로 구분하였다. 기식성 정도에 따른 분류는 정상 음성, 기식성 0, 기식성 1, 기식성 2, 기식성 3으로 하였다.
Sliced wasserstein distance를 이용하여 분석한 결과 마비 위치에 따른 분류에서 MFCC, pitch, voice quality는 정상에서 정중위, 부정중위로 갈수록 거리가 멀어지는(숫자가 커지는) 경향이 있어 각 feature들이 마비 위치에 따른 차이를 나타내는 데 효과적이라고 해석할 수 있었다. 기식성 정도에 따른 분류에서도 동일한 feature들을 사용하여 분석하였을 때 기식성의 정도가 심해질수록 거리가 멀어지는 경향이 있어 분류를 하는 데 효과적이라고 할 수 있었다. 하지만 MFCC와 pitch 분석에서 기식성 1과 기식성 2그룹에서 거리의 순서가 바뀌는 경우가 일부 존재하였다.
성대마비 분류기
성대마비 분류기
Principal component analysis (PCA) 차원 축소 기법과 support vector machine (SVM) 모델을 사용하였다. PCA는 특징 벡터(vector)의 크기가 큰 경우 머신러닝 학습이 어렵기 때문에 벡터의 크기를 줄이기 위해 사용하고 데이터 분포를 최대한 보존하여 고차원의 데이터들을 저차원의 데이터들로 변환한다. 적용 여부 및 사용 정도는 그리드 서치(grid search)로 선택하였다. SVM은 주로 머신러닝에서 사용되며 적은 수의 데이터 자료를 분석하고 패턴을 인식하는 학습 모델이다. 하이퍼파라미터(hyper-parameter)로는 rbf kernel 사용, 입력 feature들에 대해 정규화 진행, blanced class weight 이용, Gamma와 C값은 모든 선택을 수행해 본 후 가장 우수한 조건을 선택하는 그리드 서치로 최적화 하였다. 관련 내용을 Table 2에 제시하였다.
성대마비 분류기는 마비 여부에 따른 분류, 마비 위치에 따른 분류, 기식성 정도에 따른 분류로 구분하여 제작하였다. 첫 번째, 마비 여부 분류기에서는 정상인의 모음 발성과 성대마비 환자의 모음 발성을 무작위로 듣고 구분할 수 있는가이다. 두 번째, 마비 위치에 따른 분류기는 성대마비로 판단된 환자에 대하여 마비의 위치가 정중위인지 부정중위인지 파악할 수 있는가이다. 세 번째, 기식성 정도에 따른 분류기는 성대마비로 판단된 환자에 대하여 기식성 없음(0)에서 기식성 많음(3)까지의 4가지 척도로 구별할 수 있는가이다.
성능 평가
머신러닝을 학습할 때 보편적으로 사용하는 방식은 테스트 세트와 훈련 세트를 나누어서 데이터가 겹치지 않도록 한다. 하지만 본 연구에서는 일부 클래스의 데이터 수가 적어서 leave-one-out-cross-validation (LOOCV)을 적용하였다. LOOCV는 전체 데이터 중에서 하나만 테스트 세트로 두고 나머지는 훈련 세트로 두어 테스트 세트에 대한 성능을 확인하는 것이 목적이다. 일례로 자료의 수가 n개라면 위의 과정을 n번 반복 후 결과치들의 평균을 산출하여 사용한다. Feature가 발산되거나 적절하게 값이 산출되지 않은 샘플은 제외하였다. 전체 성대마비 음성 54개 중에서 5개의 음성은 유성음으로 감지되지 않았고 pitch와 voice quality에서 추출되는 부분이 없어서(undefined) 실험에서 제외시켰다. 실험에 사용한 전체 음성 데이터는 성대마비 음성 49개와 정상 음성 163개였다.
사용한 features
Mean and variance of MFCC, mean of MFCC, variance of MFCC, pitch related features, mean and variance of MFCC+pitch, mean and variance of MFCC+HNR, mean and variance of MFCC+pitch+HNR 중에서 그리드 서치를 이용하여 최적화하였다.
결 과
마비 여부 분류기
마비 여부 분류기는 특정 음성을 듣고 정상과 성대마비 중 어느 그룹에 속하는지 판별하는 것이다. Table 3에서는 정상을 정상으로 분류한 개수가 163개, 성대마비를 성대마비로 분류한 개수가 49개였다. 정상을 성대마비로 분류하거나 성대마비를 정상으로 분류한 경우는 없었다. 정확도와 정밀도, 재현율을 고려하여 전반적인 성능을 정확히 파악하고자 F1 score를 함께 이용하였다. 정확도와 F1 score의 값은 높을수록 성능이 우수한 것이며 0-1까지 표현된다. 마비 여부 분류기에서 정확도는 1.0, F1 score도 1.0으로 평가되었다.
마비 위치 분류기
마비 위치 분류기는 성대마비로 판단된 환자들 중에서 마비의 위치를 구별하는 것이다. 중간위에 포함된 2명은 제외하고 47개의 음성만 분석하였다. Table 4에서는 정중위를 정중위로 분류한 개수가 28개, 부정중위를 부정중위로 분류한 개수는 19개였다. 정중위를 부정중위로 분류하거나 부정중위를 정중위로 잘못 분류한 경우는 없었다. 정확도와 micro F1 score를 이용하였다. micro F1 score는 분류의 성능을 확인하기 위한 것으로 관심있는 클래스가 여러개 있고 각 클래스 마다 수의 차이가 있을 때 사용한다. 값이 높을수록 성능이 좋은 것이며 최대값은 1이다. 마비 위치 분류기에서 정확도는 1.0, micro F1 score도 1.0으로 평가되었다.
기식성 정도 분류기
기식성 정도 분류기는 성대마비로 판단된 환자들 중에서 기식성 정도를 구별하는 것이다. Table 5에서는 기식성 0인 음성은 모두 기식성 0으로 분류하였고, 기식성 1인 음성 중 12개는 바르게 분류한 반면 기식성 3으로 잘못 분류한 경우가 한 번 있었다. 기식성 2인 음성 중 8개는 바르게 분류한 반면 기식성 1로 잘못 분류한 경우가 6개 있었다. 기식성 3인 음성 중 10개는 바르게 분류한 반면, 기식성 1로 잘못 분류한 경우가 3개 있었다.
본 분류기에서는 정확도와 평균 절대 오차(mean absolute error, MAE)를 사용하여 오류를 측정하였다. MAE는 분류기에서 예측한 값과 정답과의 차이를 의미하며 어떠한 양상으로 오반응을 하였는지 확인하여 페널티를 적용한다. 일례로 기식성 1을 기식성 2로 분류한 경우보다 기식성 3으로 분류하였을 경우에는 더 많은 손해를 주어 오류를 측정하는 것 이다. MAE는 값이 작을수록 성능이 좋은 것이며 최소값은 0이다. 기식성 정도에 따른 분류기에서 정확도는 0.795, MAE는 0.2857로 평가되었다.
MFCC, pitch, voice quality와 다양한 조합의 feature들을 이용하여 제작된 성대마비 여부 분류기, 성대마비 위치 분류기, 기식성 정도에 따른 분류기 모두 의미있는 분류가 가능하였다. 단, 기식성 정도에 따른 분류기는 다른 두 분류기에 비해 정확도가 0.795, MAE는 0.2857로 평가되었다. 잘못 분류한 음성 샘플의 경우, 기식성 1인 음성을 기식성 3으로 분류한 경우만 남성이었고 그 외에는 모두 여성 음성이었다. 즉, 분류기는 남성 음성에 비해 여성 음성을 분류할 때 비교적 오차가 컸다. 보편적으로 여성은 남성보다 음성의 변동이 크며 이러한 특징으로 인해 분류기도 음성을 판별할 때 영향을 받았을 가능성이 있다. 이는 연구 대상자 수를 더 확보하고 성별을 따로 분리하여 실험해 본다면 보다 의미있는 결과를 도출할 수 있을 것이라 사료된다.
고 찰
음성은 개개인 마다 고유한 특징을 가지며 따라서 정상과 비정상에 대한 기준을 명확히 할 수 없다. 이는 음성 질환을 진단하고 치료하는 과정에서 매우 어려운 문제이며 실제로 임상 진료 현장에서 여러가지 음성 평가 도구들은 표준진단법(gold standard)이 아닌 보조적인 수단으로 활용되고 있다[12-14]. 본 연구도 음성이 가지는 고유한 특성 및 진단 기준의 모호성이 큰 장애물이라고 판단을 하였고, 현 상황에서 인공지능을 통한 분석을 한다고 하더라도 모든 음성질환에 대한 적절한 신뢰도를 가진 결과를 얻을 수 없을 것이라고 판단하여 최대발성시간이 단축되면서 기식성 음성이 특징적인 성대마비 환자로 범위를 축소해 본다면 인공지능을 통한 음성 분석이 가능할 것으로 사료되어 연구를 계획하게 되었다. 대상자 수가 많지 않고 단일 기관의 자료라는 점, 성문 간극이 크더라도 사람마다 보상 작용이 다르다는 점 등 다양한 변수를 감안하여야 하지만 후두내시경 없이 인공지능을 활용한 음성 분석만으로 성대마비를 진단하였고 마비된 성대의 위치도 진단할 수 있었다. 정중위 성대마비의 경우 음성 변화의 정도가 크지 않고 청지각적 평가 등 일반 음성평가로 진단하기 힘들어 후두내시경으로만 진단되는 경우도 많은데 인공지능의 도움으로 음성 분석만으로 진단이 가능할 수 있음을 확인할 수 있었다. 불과 얼마 전까지만 하더라도, 인공지능이 아무리 발전하더라도 음성의 영역은 다다르기 어려울 것이라는 분석도 있었다. 하지만 현재 인공지능을 활용하면 동일인의 목소리를 말투, 억양 등 특징까지 구체적으로 구현하는 수준까지 도달하였다[7,8]. 물론 질환의 영역에서 정상과 비정상을 구분하고 후두내시경을 통한 육안적 진단만큼의 정확성을 확보하려면 더 많은 발전이 필요하지만 최소한 불가능의 영역은 벗어났다고 할 수 있을 것이며, 이번 연구가 그러한 점에서 의미가 있을 것으로 사료된다. 단, 음성분석기기를 활용하여 성대마비 위치와 기식성의 심한 정도를 예측한 데 의의가 있지만 예비 연구라는 점에서 한계가 있다. 우선, 본 연구는 성대마비의 위치에 따라 기식성 음성의 정도가 결정된다는 전제 하에 이루어졌다는 점이다. 실제 기식성 음성의 심한 정도는 마비의 위치 뿐만 아니라 성대 점막의 상태, 근육의 상태와 근력의 정도, 마비의 기간 등에 의해 영향을 받을 수 있지만 결과에 영향을 끼칠 수 있는 다양한 변수들을 통제하지 않고 실험하였기 때문에 그 부분을 감안하여 해석할 필요성이 있다. 두 번째로는 모델 크기에 비해 데이터의 수가 적었기 때문에 데이터를 그대로 외워서 학습하는 오버피팅의 가능성을 배제할 수 없다는 점이다. 따라서 추후 연구에서는 데이터 수와 음성장애 영역을 확장하고 결과에 영향을 끼칠 수 있는 변수는 최대한 통제한 상태에서 실험이 이루어져야 할 것이다. 현재 지속적으로 데이터를 수집하고 인공지능을 통해 분석하고 있으며 전향적 연구방법도 계획하고 있는 바 후속 연구를 통해 연구를 지속해 나갈 계획이다. 본 연구를 발판삼아 인공지능을 통한 음성분석기기를 꾸준히 연구하여 정교화시킨다면 가까운 미래에는 환자의 음성만으로 병을 진단할 수 있는 날이 올 수 있을 것이라 기대한다. 또한 상용화가 된다면 현재 임상에서 시행하는 음성검사보다 편의성 측면에서 장점이 있고 후두내시경 검사가 어렵거나 불가능한 사람들도 부담 없이 음성 상태를 파악할 수 있기 때문에 접근성이 용이할 것이라 사료된다.
Acknowledgements
None
Notes
Funding Statement
This research was financially supported by the Daegu Metropolitan City and Daegu-Gyeongbuk Medical Innovation Foundation (K-MEDI hub) through the Medical device specialized support project (2022).
Conflicts of Interest
The authors have no financial conflicts of interest.
Authors’ Contribution
Conceptualization: GilJoon Lee. Data curation: Su Na Park, Seungtae Kang. Formal analysis: Seungtae Kang, Gil-Jin Jang. Funding acquisition: Ki-Su Park, Janghyeok Yoon. Investigation: Ji-Wan Ha, Jiho Lee. Methodology: Su Na Park, Seungtae Kang, Gil-Jin Jang. Project administration: GilJoon Lee. Resources: GilJoon Lee, Su Na Park, Seungtae Kang, Gil-Jin Jang. Software: Gil-Jin Jang, Seungtae Kang. Supervision: GilJoon Lee. Validation: Seungtae Kang, Gil-Jin Jang, GilJoon Lee. Visualization: Seungtae Kang, Su Na Park. Writing—original draft: Su Na Park, GilJoon Lee. Writing—review & editing: Su Na Park, GilJoon Lee. Approval of final manuscript: all authors.