성대마비의 음성장애 측정을 위한 청지각적 및 음향학적 평가
Auditory-Perceptual and Acoustic Evaluation in Measuring Dysphonia Severity of Vocal Cord Paralysis
Article information
Trans Abstract
Background and Objectives
The purpose of this study was to investigate the criterion-related concurrent validity of two standardized auditory-perceptual assessments and the Acoustic Voice Quality Index (AVQI) for measuring dysphonia severity in patients with vocal cord paralysis (VCP).
Materials and Methods
Total 210 patients with VCP and 236 normal voice subjects were asked to sustain the vowel [a:] and to read aloud the Korean text ‘‘Walk’’. A 2 second mid-vowel portion of the sustained vowel and two sentences (with 26 syllables) were recorded. And then voice samples were edited, concatenated, and analyzed according to Praat script. Two standardized auditory-perceptual assessment (GRBAS and CAPE-V) were performed by three raters.
Results
The VCP group showed higher AVQI, Grade (G) and Overall Severity (OS) values than normal voice group. And the correlation among AVQI, G, and OS ranged from 0.904 to 0.926. In ROC curve analysis, cutoff values of AVQI, G, and OS were <3.79, <0.00, and <30.00, respectively, and the AUC of each analysis was over .89.
Conclusion
AVQI and auditory evaluation can improve the early screening ability of VCP voice and help to establish effective diagnosis and treatment plan for VCP-related dysphonia.
서 론
성대마비(vocal cord paralysis)는 미주신경 혹은 상후두신경, 반회후두신경의 손상 등으로 야기되며, 주로 갑상선 수술, 경부외상, 신경 질환, 폐암 등의 악성종양 침범, 원인미상 등에 의해서 발생할 수 있다[1-3]. 성대마비의 원인, 위치에 따라서 환자가 호소하는 증상이 다양하지만, 정확한 진단 및 평가를 진행하여 적절한 치료계획을 수립하는 것이 원칙이다[4]. 성대마비의 주요 증상은 주로 쉰 목소리, 흡인, 삼킴장애 등이 있다. 마비 위치에 따라 증상의 정도가 달라지며 성대위축으로 인한 성문기능부전으로 음성산출의 어려움을 겪게 된다[5,6].
성대마비의 평가를 위해서 후두내시경(laryngoscopy), 후두스트로보스피(laryngeal videostroboscopy), 후두근전도검사(laryngeal electromyographic), 음향학적 평가, 공기역학적 평가, 청지각적 평가 등이 수행된다. 이 중에서 음향학적, 공기역학적, 청지각적 평가는 환자의 음성을 녹음하여 음성장애의 정도를 객관적, 주관적으로 평가하게 된다. 특히 음향학적 평가는 Multi-dimensional voice program(MDVP, model 5105 ; KayPENTAX, Montvale, NJ), Praat(Paul Boersma, Institute of Phonetic Sciences, University of Amsterdam, The Netherlands, www.praat.org)과 같은 섭동 분석(perturbation analysis)방식과 Analysis of Dysphonia in Speech and Voice(ADSV, model 5109 ; KayPENTAX, Montvale, NJ)과 Speech Tool(ST), Praat과 같은 켑스트럼 분석(cepstrum analysis)으로 분류된다[7,8]. 섭동분석 방식은 주기 대 주기(cycle to cycle) 파형 매칭(waveform matching)이나 정점 대 정점(peak to peak, pitch synchronous peak detection) 방식으로 음성 신호의 주기성을 탐지하여 음성장애의 중증도를 정량화한다[9-11].
성대마비의 음성들은 섭동 분석을 통해서는 신뢰할 수 없는 분석 결과를 자주 경험하게 된다. 이러한 경우 켑스트럼 분석을 이용한다면 음성 신호 내의 배음 정도를 측정하여 음성장애의 중증도를 정량화 할 수 있다. 임상현장에서는 주로 섭동 분석 방식을 통한 음질의 평가를 진행하며 매우 심한 음성장애의 경우 켑스트럼 분석을 통해 음성장애의 심한 정도를 평가한다. 치료 전 후의 결과를 비교하기 위해서는 음성의 질을 일관적으로 측정하는 것이 요구된다.
앞서 소개된 음성분석 도구 중에서 Praat은 섭동 분석과 켑스트럼 분석이 모두 가능하다. 최근 두가지 분석의 평가변수들을 통해 측정되는 Acoustic Voice Quality Index(AVQI)라는 발성장애의 정량화 방식이 소개되었다[12]. AVQI는 모음 연장발성과 문장 읽기 등의 음성샘플을 합성하여 하나의 측정값을 제시한다. 따로 분석한다면 발성 과제에 따라 상이한 결과를 얻을 수 있지만, 개별 분석하는 것이 아니라 통합하여 분석하기 때문에 대상자들의 음성장애를 잘 드러내는 결과들을 얻을 수 있다. 섭동 분석과 켑스트럼 분석의 변수들이 모두 포함되어 계산되기 때문에 음성의 주기성 여부가 AVQI 분석의 신뢰도에 영향을 주지 않는다. AVQI는 주기적, 비주기적 음성에 상관없이 음성장애의 중증도를 측정할 수 있으며 영어, 독일어, 네덜란드어, 리히슈타인어, 일본어, 한국어 등 많은 언어권에서 검증되었다[13-20]. 이러한 AVQI는 청지각적 평가 GRBAS(grade, G)와 CAPE-V(overall severity, OS)와의 상관관계도 높은 것으로 보고되었다[21,22]. 기존의 한국어 관련 연구에서는 56명의 환자들을 대상으로 AVQI를 검증하였으며 다른 언어권 연구들과 마찬가지로 AVQI와 청지각적 평가 간의 높은 상관관계가 보고되었다.
이러한 검증을 바탕으로 본 연구에서는 성대마비 집단과 정상집단 간의 음향학적 측정 차이를 보고하고 청지각적 평가 GRBAS, CAPE-V와의 상관관계를 밝히고자 한다. 그리고 두 집단 간의 AVQI, G, OS에 대한 선별 기준값과 예측 정확도를 확인하여 임상 현장에서 성대마비 음성장애 환자의 진단 및 평가에 유용한 자료를 제공하자고 한다.
대상 및 방법
1. 연구대상
본원에 내원한 환자들 중 후두내시경, 후두스트로보스코피, 후두근전도 검사상 성대마비로 진단된 223명의 환자 중 신호 대 잡음비 평가(signal to noise ratio, SNR)를 통해서 13명의 환자를 제외한 210명(58.3±12.5세)을 대상으로 하였다. 성대마비 집단의 SNR 범위는 17.9~70.5 dB(평균 44.5 dB)였다. 정상집단 226명(41.6±19.1세)은 이비인후과 내원한 후 후두내시경 상으로 관찰되는 이상소견이 없고 음성장애를 호소하지 않는 사람들을 선정하였다.
2. 음성녹음
음성녹음은 이비인후과 음성검사실 내 방음 부스에서 Computerized Speech Lab 4500(Kay Electronic, USA)과 단일지향성 마이크(Shure SM48, Shure Inc, USA)를 사용하였다. 음성 과업은 연장모음 /아/ 발성과 문단읽기를 수행하였다. 연장모음은 3회 반복하여 가장 안정적으로 발성한 샘플의 시작과 끝 부분을 제외한 안정구간 2초를 선정하고, 문장 읽기는 ‘산책’ 문단 중 2개의 문장(26음절)을 편안하게 읽도록 지시하고 표본추출률 44.1 kHz, 양자화 16bit, WAV로 녹음하였다.
3. 음성편집
AVQI 측정을 위해서는 연장발성과 문단읽기 샘플을 편집하여 하나의 음성파일로 생성하였다. Praat 스크립트를 통해서 두 샘플을 연결(concatenated)하여 쉼, 무성음 구간을 제거하여 유성음 부분만을 추출하여 새로운 WAV파일로 저장하였다. 본 연구에서 사용된 스크립트는 선행연구에서 제시된 것을 수정하여 연구의 목적에 맞게 사용하였다[20].
4. 신호 대 잡음비(Signal to noise ratio, SNR) 측정
음성의 음향학적 분석에 오류를 최소화 하기 위해서는 신호 대 잡음비(SNR)가 최소한 30 dB 이상이 되어야 된다[23,24]. 30 dB 미만은 부적합, 최소 30 dB 이상 적합, 42 dB 이상 매우 적합이라고 하였다.
5. 청지각적 평가
음성평가 및 치료의 임상경력이 7년 이상인 언어재활사 3명이 성대마비 음성샘플을 평가하였다. 평가자들은 환자들에 대한 배경정보를 제공받지 않고 청지각적 평가를 수행하였으며 음성샘플은 무작위로 제시하였다. GRBAS 척도 중 G(grade)는 4점 척도(0 : normal, 1 : mild, 2 : moderate, 3 : severe)로 평가하였다. CAPE-V의 overall severity(OS)는 시각적 분석 척도(visual analysis scale)이며, 0(정상)-100(매우 심함)의 평가방식으로 제시되며 100 mm의 가로선에 중증도를 체크하였다. 이에 따른 평가자 간 신뢰도는 85%였으며, 평가자 내 신뢰도 분석을 위하여 전체 대상자 중 10%에 해당하는 23명의 음성샘플을 무작위 선택하여 첫 평가 후 2주 뒤에 동일한 평가자가 재평가를 실시하였다. 이에 따른 평가자 내 신뢰도는 89%로 나타났다.
6. AVQI 측정
AVQI 측정은 음성샘플의 유성음 구간에서만 신뢰성 높은 분석이 이루어지며 Maryn 등이 제시한 Praat 스크립트 및 회귀식을 사용하였다[20]. AVQI를 구성하는 변수들은 다음과 같다 ; smoothed cepstral peak prominence(CPPS), harmonics to noise ratio(HNR), shimmer local(SL), shimmer local dB (SLdB), general slope of the long-term average spectrum (ie, Slope), tilt of the regression line through the long-term average spectrum(ie, Tilt). 이러한 측정변수들은 Praat에서 모두 자동으로 측정가능하며 결과값은 텍스트파일로 저장하였다. AVQI 측정 회귀식은 (1)과 같다.
7. 자료 처리
자료 분석은 R, version 3.4.0(The R Foundation for Statistical Computing, Vienna, Austria) and RStudio 1.0.143(RStudio Inc., Boston, MA, USA)을 통해서 수행하였다. 청지각적 평가에 대한 평가자 간/내 신뢰도를 확인하기 위해서 intrarater correlation coefficient, interrater correlation coefficient(ICC) 통계 분석을 수행하였다. 집단 간 AVQI, 청지각적 평가(G, OS)의 차이는 독립표본 t-검정을 통해 유의성을 검증하였다. AVQI, G, OS 간의 상관분석은 Pearson 상관분석을 통해서 검증하였고 유의수준은 95%였다. 정상음성과 성대마비 음성에 감별 진단적 가능성을 확인하기 위해서 AVQI, OS에 대한 ROC(receiver operating characteristics) 분석을 실시하였다.
결 과
1. AVQI, Grade, Overall severity의 집단간 비교
1) AVQI의 집단간 비교
집단 간 AVQI의 값을 비교한 결과, 정상집단은 2.9±1.0, 성대마비 집단은 5.8±2.0로 측정되어 정상 집단에 비해 성대 마비 집단이 통계적으로 유의하게 높았다(p<0.001). 각 변수들의 비교 결과는 Table 1과 Fig. 1에 제시하였다.
2) Grade의 집단간 비교
집단 간 G의 값을 비교한 결과, 성대 마비 집단이 정상 집단에 비해 나쁜 음성의 proportion이 높았다(p<0.001).
3) Overall severity의 집단간 비교
집단 간 OS의 값을 비교한 결과, 정상집단은 18.6±10.3, 성대마비 집단은 50.1±22.4로 성대마비 집단에서 음성의 질이 나쁘게 측정되었다(p<0.001).
2. AVQI, Grade, Overall severity간의 상관분석
AVQI, G, OS의 상관관계를 분석한 결과, AVQI는 G(r=0.904, p<0.001), OS(r=0.926, p<0.001)와 높은 상관관계를 보였으며, G는 OS와도 높은 상관관계(r=0.924, p<0.001)를 나타내었다(Fig. 2).
3. AVQI, Grade, Overall severity의 감별 진단적 가능성
정상집단과 성대마비 집단의 음성에 대한 감별 진단적 가능성을 확인하기 위해서 ROC 곡선 분석을 실시하였고 그 결과를 Fig. 3에 제시하였다. AVQI의 경우, 성대마비를 예측하는 선별 기준값은 3.79(AUC=0.901, 민감도=86.7%, 특이도= 86.4%), 곡선하 면적은 .901로 높은 수준이었다. G의 선별 기준값은 0.00(AUC=0.932, 민감도=91.0%, 특이도= 89.8%) 이 때의 예측력은 0.932이었다. OS의 경우, 두 집단은 30.00의 값에서 변별할 수 있으며 이 때의 민감도, 특이도, 곡선하 면적은 각각 87.6%, 83.5%, 0.897이었다.
고 찰
본 연구에서는 성대마비 음성의 중증도를 정량화하고 청지각적 평가 GRBAS와 CAPE-V와의 상관관계를 확인하였다. 음향학적 분석과 청지각적 평가 결과의 상관관계를 확인함으로써 AVQI가 성대마비 음성의 감별에 있어서 유효하다는 것을 알 수 있었다.
본 연구의 결과를 통해서 다음과 같은 연구의 의의를 얻을 수 있었다. 첫째, 성대마비 음성은 정상 음성에 비해서 더 큰 값의 AVQI, G, OS 값을 나타내었고, 통계적으로 유의한 차이가 확인되었다. 병리적인 음성이 정상음성보다 더 큰 값의 AVQI를 나타내는 것은 선행연구의 결과들과 일치하였다[12-19]. 기존 성대마비의 대상자 경우에는 경도(mild)의 성대마비 음성은 섭동분석으로 음성평가가 가능하지만, 심한(severe) 성대마비 음성은 켑스트럼 분석을 통해서 음성장애의 중증도를 보고하였다. 성대마비의 상태에 따라서 분석 방법을 변경할 수 있지만 섭동 분석의 변수들과 켑스트럼 분석의 변수들을 직접적으로 비교하는 것은 무리가 따른다. AVQI에는 두 분석의 변수들이 모두 포함되어 있어 음성장애의 중증도에 관계없이 일정한 분석 결과를 측정하도록 고안되어 있다. 또한 성대마비 집단의 AVQI가 더 큰 것은 G의 비율에서도 확인할 수 있었다. G의 평가에서 정상집단은 G0의 비율이 약 90%, G1의 비율이 약 10%인 반면, 성대마비 집단에서는 G1-2-3의 비율이 약 90%이었다. 성대마비 음성이 청지각적으로 더 나쁜 음성으로 평가되었고 통계적으로 유의한 차이가 보고되었다. 성대마비의 좌우 위치에 따라서는 유의한 차이가 확인되지 않았지만 추후 연구에서는 마비된 편측 성대의 위치를 median, paramedian, adduction 등으로 나누어 분석한다면 좀 더 의미 있는 결과를 얻을 수 있을 것이다.
둘째, AVQI 음향학적 측정과 청지각적 평가 G(r=0.904, p<0.001), OS(r=0.926, p<0.001) 간에 높은 상관관계가 확인되었다. 다른 언어권 연구들에서도 AVQI와 청지각적 평가 G와 OS와의 상관관계에 대해 보고하였다[13-16,19,20]. 기존의 AVQI, 청지각적 평가(GRBAS, CAFE´ -V)와의 상관관계에 대한 다른 언어권 연구들과 일치하는 높은 상관관계를 보였다. 많은 연구들의 결과를 통해서 AVQI를 이용한 음성장애의 정량화가 신뢰성이 높다는 것을 확인할 수 있었다. 숙련된 임상가의 청지각적 평가 능력은 음성 평가에서 중요한 역할을 하며 음성장애를 정확하게 판별할 수 있다고 보고되었다[25].
셋째, 두 집단 간의 AVQI, G, OS의 선별 기준값 및 예측 정확도를 확인하여 음성장애의 효과적인 평가가 가능하며 환자들에게 도움이 될 수 있는 정보들을 제공할 수 있다. 본 연구에서는 0.89 이상의 예측력을 나타냈으며 선행연구들과 유사한 결과를 보고하였다. 선행연구들에 비해 높은 AVQI 기준값은 청지각적 평가에서 정상집단의 G0 비율이 100%가 아니라 G1의 비율이 10%가 포함되어 AVQI의 기준값이 증가한 것으로 판단된다. 추후 연구에서 정상집단의 G0 비율을 100%로 설정한다면 선행연구들과 비슷한 AVQI 기준값이 도출 될 것으로 예상된다.
본 연구의 제한점으로는 연구에 적용된 AVQI의 회귀식은 연구에 따라서 다양하게 존재한다. 절대적인 공식이 아니기 때문에 연구자의 판단이나 연구 목적에 따라서 바뀔 수 있다. 본 연구에 적용한 회귀식도 다양하게 존재하는 회귀식들을 적용해 본 후 선정하였다[15,16,20]. 그리고 앞서 언급한 것처럼, 정상집단의 선정에 있어서 청지각적 평가를 수행하여 G0의 대상자만을 선별한다면 병리적인 음성장애 집단으로부터 선별하는데 더욱 높은 신뢰도를 보고할 수 있을 것으로 사료된다. 마지막으로 Praat의 섭동 분석 방식은 파형 매칭 방식이기 때문에 병리적인 음성의 상태가 정확하게 반영되지 않는다. 추후 연구에서는 Praat에서 정점 대 정점 알고리즘의 적용을 고려한다면 음성장애의 상태를 더욱 잘 반영할 수 있을 것으로 사료된다.
결 론
본 연구에서는 성대마비 환자의 음성장애과 정상집단을 대상으로 하여 AVQI 측정 및 청지각적 평가를 수행하였고 두 집단을 변별하는데 이러한 변수들의 유용성을 확인해보았다. 성대마비 집단은 정상음성 집단에 비교하여 큰 값의 AVQI, G. OS 값이 확인되었고, 두 집단을 변별하기 위한 기준값은 AVQI는 3.79, G는 0, OS는 30으로 측정되었으며 이 값을 기준으로 성대마비 음성을 정상 음성으로부터 감별할 수 있을 것으로 예상된다. 본 연구에서 분석된 AVQI, G, OS의 값은 변수들끼리 높은 상관관계를 보여 임상 현장에서 성대마비 음성장애의 진단 및 평가에 유용한 정보를 제공할 것으로 판단된다.