AbstractBackground and ObjectivesThis study aims to investigate the lip movements area (LMA) and vowel space area according to depression.
Materials and MethodThe participants diagnosed with voice disorders or thyroid cancer before treatment and surgery. All participants completed the depression questionnaire and recorded five vowels (/a, i, u, e, o/) phonation while shooting. Among the total 64 participants, there were 19 participants in the depressive disorders group and 45 participants in non-depressive group. The analysis parameters were LMA, vowel space areas (Area3 & Area5), formant centralization ratio (FCR), fundamental frequency (F0) and voice intensity (intensity). Multivariate analysis of variance (MANOVA) was applied, and age was treated as a covariate to correct for lip movement that could deteriorate as age increased.
ResultsAs a result of MANOVA, there was no significant difference between groups (p=0.517). Looking at the LMA, both male and female in the depressive disorder group showed a lower mean value than the non-depressive disorders group. The Area3 and FCR of the depressive disorder group were higher than those in the non-depressive disorders group, whereas for the Area5, the mean value of female in the depressive disorder group was higher than that of the non-depressive disorder group and the male’s non-depressive disorder group had a slightly higher mean value.
서 론목소리(voice)는 전반적인 심신 상태를 반영한다[1]. 이는 화자(speaker)의 심리 상태도 목소리에 투영됨을 뜻한다. 심리적 원인이 음성장애를 심화시키는 경우가 많아 최근에는 명상 및 상담/면담 등과 같은 감정 재확립의 음성치료 기법이 중요해지고 있다[2].
정상 말소리는 운동 신경계의 통제를 받는 100여개의 근육이 정교한 시간적인 협응의 결과이다[3]. 협응의 유기체인 호흡, 발성, 공명 그리고 조음기관 중 어느 한 곳의 비정상적 수행만으로도 말 장애(speech disorders)가 유발된다. 발화 시 구강을 충분히 벌려서 말하지 않으면 좁은 공명강(oral cavity)으로 인해 성도의 공명주파수 즉, 포먼트(formant) 형성이 잘 안되고, 입술의 힘(tension)이 약하면 말소리 에너지가 충분히 방출되지 않는다. 이로 인해 말소리가 어눌하거나(unclear) 작아지게 되어 말 명료도(speech intelligibility)와 용인도(speech acceptability)가 떨어진다[4]. 포먼트는 말소리의 음향적 에너지에 대한 두드러진 주파수 대역의 정점(peak)을 의미하며, 이론적으로는 제1포먼트(F1)와 제2포먼트(F2)가 모음의 특성을 결정한다. 제1포먼트(F1)는 혀의 높이를 반영하고 제2포먼트(F2)는 혀의 전후 위치 및 원순 정도(lip-rounding degree)를 반영한다. 또한 제3, 4, 5포먼트는 개인 음성의 특징을 결정한다[3]. 성도(vocal tract) 모양을 반영하는 포먼트는 남녀 간의 해부학적 성도 차이 뿐 아니라 감정 의존 요소(emotional-dependent feature)라고 알려져 있어 우울과 슬픔 감정에서 F1 증가가 보고되었다[3]. 심리적 우울증과 같이 화자(speaker)의 심리상태로 인하여 구강 안면 근육 등을 최대한 사용하지 않고 말하는 기능적 음성장애 치료에는 구강 공명을 촉진시키는 구강-개방 접근법(open-mouth approach)이 널리 사용되고 있다[5,6].
우울증은 인생 전반에 걸쳐 매우 흔한 질병으로 지속적으로 재발한다. 우울증은 의욕저하, 우울감, 감정, 생각, 신체, 행동에 변화를 야기한다. 미국에서는 성인 6명 중 1명 꼴로 우울증을 경험하고[7], 한국 성인 평생 유병률은 5.6%, 연간 2.5%로 추정될 정도로 높은 수치를 보였다[8]. 코로나 대유행(pandemic) 시기에는 한국 우울증 유병률이 36.8%로 OECD 국가 중 1위를 기록했다[9]. 국내 음성장애 환자군에서 우울증 빈도는 26.5%로 높은 수치를 보여 상호 연관성이 보이고 있다[1].
우울증이 구강 개방에 미치는 영향을 객관적으로 조사한 연구는 아직 없다. 이에 본 연구에서는 우울장애 여부에 따른 입술 벌림을 관상면(coronal view)에서 측정하여 구강 개방을 객관적 수치로 파악하고 음성 포먼트 분석을 기반으로 모음 공간 면적(vowel space area)을 시상면(sagittal view)에서 조사하여 구강 내부의 공간 비교를 할 것이다.
대상 및 방법Study participants본 연구는 2022년 5월 1일부터 2023년 4월 30일까지 대전 소재 대학병원 이비인후과 두경부 전문의로부터 음성장애 또는 갑상선 암으로 진단받고 처치 및 수술을 받기 전 환자를 대상으로 진행하였다. 모든 대상자는 Patient Health Questionnaire-9 (PHQ-9) 설문을 실시하였고 모음 발성을 촬영하였다. 자가보고식 설문인 PHQ-9는 총 9문항으로 구성되어 있으며 문항별 배점은 0-3점으로 최대 총점은 27점이다. 총점 5점부터 우울장애로 분류된다. 설문의 신뢰도를 높이기 위해서 18세 이상만 대상자로 하였다. 그리고 우울장애 이외 입술 벌림과 음성에 영향을 줄 수 있는 요소를 지닌 호흡기 질환자, 청력 손실자, 과거 갑상선 암 이력자, 갑상선 기능저하자, 틀니 착용자는 제외시켰다.
총 64명 중에서 5점 이상인 우울장애군은 19명이고, 비우울장애군은 45명이었다(Table 1). 우울장애군 PHQ-9 평균점수(±표준편차)는 9.74 (±6.83)점이고, 평균연령(±평균편차)은 50.05 (±17.03)세, 연령 범위는 23-76세, 남성 7명, 여성 12명이었다. 우울장애군에 갑상선 암(수술전) 환자는 12명, 음성장애 환자는 7명이었다. 우울장애군 중 갑상선 암 환자의 병변 정보는 우측 7명, 좌측 3명, 전체 2명 이였고, 음성장애군 중 성대폴립 5명, 접촉성 육아종 1명, 백반증 1명이었다.
비우울장애군의 PHQ-9 평균 점수(±평균편차)는 1.07 (±1.19)점이고, 평균연령(±평균편차)은 57.98 (±13.78)세, 연령 범위는 25-83세, 남성 29명, 여성 16명이었다. 비우울장애군에 갑상선 암(수술전) 환자는 19명, 음성장애 환자는 26명 이었다. 비우울장애군 갑상선 암 병변 정보는 우측 8명, 좌측 6명, 전체 5명이었고 음성장애군 중 성대 폴립 13명, 백반증 11명, 라인케인 부종 1명, 성대 낭종 1명이었다. 사전에 연구 목적을 설명하였고 개별적으로 동의를 구하였으며 의학연구윤리심의위원회 심의를 거쳤다(CNUH_IRB No. 2022-07-046).
Shooting for vowel phonation & recording data모음 발성 시 입술 벌림을 촬영하기 위해 스마트폰 카메라가 대상자 얼굴 정면을 촬영하도록 거치하고 카메라는 초당 30 프레임(frame), 해상도 1440-1440 픽셀(pixel), 오디오 48 kHz로 세팅하였다. 이때 음성분석 장비인 computerized speech lab (CSL, model 4150B, Kaypentax, Lincoln Park, NJ, USA)에 연결한 마이크를 피험자 턱에 고정시켜 동영상 촬영과 음성 녹음을 동시에 진행하였다. 촬영시 실내 밝기는 자연채광이 없이 실내 조명만으로 이루어졌고 어둡지 않은 상태였다. 최대한 육안으로 관찰하는 기준에 부합하도록 동영상 촬영시 원본의 색감과 밝기에 영향을 줄 수 있는 추가 기능은 사용하지 않았다. 녹음시료는 5개 모음(/아, 이, 우, 에, 오/)으로 선정하였다. 피험자에게 평상시 본인의 편안한 발성으로 각 모음을 3초 간 말해달라고 요구하였다. 옆에서 검사자가 사전에 종이(A4)에 모음을 인쇄하여 보여주면서 1회 시연하였다. 피험자는 스마트폰 카메라를 응시한 자세를 유지하였고(Fig. 1A), 인쇄 종이는 카메라 옆에 두어 녹화 중에도 볼 수 있게 하였다. 촬영 및 녹음은 방음문이 설치된 조용한 방에서 실시하였다.
Lip movements area (LMA) calculation method입술 벌림 정보는 얼굴을 정면으로 볼 때 입을 어느 정도 벌리는지 직관적으로 판단할 수 있는 시각적 정보이다. 추출 방법으로는 이미지 기반 추출 기법(pixel-based method), 모델 기반 추출 기법(model-based method), 빛의 밝기를 벡터화 한 추출 기법(optical flow method) 등이 있다[10]. 본 연구에서는 이미지 기반 윤곽 추출방법을 선택하였다. 녹화된 영상은 영상편집 소프트웨어(clipchamp)로 불러와 오디오를 분리하여 음성 파형을 기준으로 모음 별로 나누었고, 모음별 발성 시작 시간과 종결 시간을 조사하고 종결시간에서 시작 시간을 뺀 중간 시간을 계산하여 중간 시간대의 영상 프레임을 선택하여 정지 이미지(still image)를 분리 저장하였다(Fig. 1). 결과적으로 정지 이미지는 모음 발성의 안정구간에서 추출한 것이다. 정지 이미지에서 입술 벌림 면적을 구하기 위해 미국 국립보건위원회에서 개발한 영상분석 소프트웨어(imageJ)를 사용하였다. 영상분석 프로그램을 실행시키고 분석용 정지 이미지를 불러온 후 polygon selections (set scale…/unit of pixel)을 선택하여 분석구간을 수동으로 지정하였다. Measure 버튼을 선택하면 자동으로 픽셀 값이 구해지고 파일로 저장된다. 분석구간에 영향을 줄 수 있는 촬영 카메라와 화자(speaker) 간의 거리편차를 보정하기 위해서, 기준 윤곽 면적을 구하고, 입술 벌림 면적(inner lip area)을 기준 윤곽 면적(standard square area)으로 나눠 입술 움직임 면적(LMA)을 구하였다(Formula 1). 기준 윤곽 면적(standard square area)은 콧망울, 좌우 입꼬리 및 아랫입술의 끝선에 맞춘 사각형의 면적이며, 입술 벌림 면적(inner lip area)은 입술 안쪽 윤곽에 따라 수동으로 점을 찍어 점 사이를 직선으로 연결시켜 구하였다(Fig. 2). 본 연구에서는 녹음된 모음 중 최대로 많이 하악이 내려가는 모음 /아/ 만을 선정하여 입술 움직임 면적을 구하였다.
Vowel space area (Area) calculation method선행연구를 기반으로[11] 각 모음별 제1포먼트(F1)와 제2포먼트(F2)를 구하였다. 포먼트 구하는 방식을 간략히 언급하면, 각 음성의 파형에서 pitch와 intensity 곡선이 안정적인 구간을 선택하여 포먼트 분석구간으로 삼았다. 분석은 프랏(praat) 프로그램 사용하였다.
Parameters and statistical analysis분석변수는 총 6 개이며, 모음 /아/의 입술 움직임 변수(LMA), 모음 공간 면적인 Area3과 Area5, 모음 중앙화 비율(FCR), 그리고 기본 주파수(F0)와 음성 강도(Intensity)이다(Table 2). SPSS 22 (IBM Corp., Armonk, NY, USA)를 사용하여 집단과 성별을 요인으로 하는 2 요인 다변량 분산분석(multivariate analysis of variance, two-way MANOVA)을 적용하였다. 연령이 증가할 수록 입술 움직임 저하가 보고되었기에[9] 이를 보정하기 위해 연령을 공변량으로 처리했다.
결 과총 6개 변수에 대한 다변량 분산분석 결과, 성별 간 통계적으로 유의미한 차이가 있었으나(p<0.001) 집단 간에는 유의미한 차이가 없었다(p=0.517). 성별과 집단 간에는 F0만 유의미 하였고(p<0.05) 다른 변수는 유의미한 차이가 없었다(p=0.191). 성별과 집단간 F0 변수만 통계적으로 유의미 하였으나(p=0.024), 이는 남녀의 기본주파수 차이에 대한 당연한 결과이므로 학문적 의미는 없다.
성별에 대한 개체 간 효과검정을 살펴보면 LMA (p=0.031), Area3 (p<0.001), Area5 (p<0.001), F0 (p<0.001), 변수가 성별 간 차이를 보였고, FCR (p=0.755)와 Intensity (p=0.074)는 통계적 차이가 없었다. 집단에 대한 개체 간 효과검정 결과는 LMA (p=0.849), Area3 (p=0.968), Area5 (p=0.342), FCR (p=0.553), F0 (p=0.494), Intensity (p=0.519)였다. 각 변수의 평균(±표준편차)을 자세히 살펴보면(Table 3), 우울장애군 LMA 남녀(17.94±4.78, 22.83±4.90)는 비우울장애군 남녀(18.93±6.89, 23.04±5.82) 보다 작은 수치를 보인다. Area3도 우울장애군 남녀(192726±117646, 449647±173405)는 비우울장애군 남녀(219009±113917, 463494±103874) 보다 작았다. Area5는 우울장애군 여성(555530±169783)이 비우울장애군 여성(496720±159475) 보다 컸으나 우울장애군 남성(258759±119981)은 비우울장애 남성(287389±131111) 보다 작았다(Figs. 3 and 4). FCR은 우울장애군 남녀(0.92±0.12, 0.95±0.37)가 비우울장애 남녀(0.89±0.14, 0.84±0.12) 보다 높았다. 이는 우울장애군의 모음 발성이 비우울장애군보다 중앙화가 더 되었음을 의미한다.
F0는 비우울장애군 여성(172.17±26.04) 보다 우울장애군 여성(195.44±34.57)이 높은 반면 남성은 비우울장애군(122.41±22.71)이 우울장애군(111.45±19.25) 보다 높았다. 음성 강도(intensity)는 우울장애군 여성(67.01±3.35)이 비우울장애군 여성(66.37±4.40)보다 높았지만, 남성은 우울장애군(68.17±3.64)과 비우울장애군(68.69±4.91) 간 평균 차이가 거의 없었다(Table 3).
고 찰본 연구는 우울장애 유무에 따른 발성시 입 벌림을 객관적 접근으로 알아본 연구로 6개 분석변수 모두 집단 간 통계적으로 유의미한 차이는 없었고 성별 간 차이만 있었다. 우리의 관심은 성별 간 차이가 아니라 집단 간 차이이므로 통계적으로 유의미하지 않았지만 집단의 경향성을 파악하기 위해 평균 값을 살펴보고자 한다.
첫째, LMA를 살펴보면, 우울장애군 남녀 모두가 비우울장애군 보다 낮은 평균값을 보였다. 즉, 우울장애군이 입술 벌림이 더 작다라고 해석할 수 있다. 음성 강도(intensity)는 두 군 모두 유사한 수치를 보였기에 구강 에너지 양이 비슷했을 것으로 판단할 수 있으며 이렇게 음성 강도가 비슷한 상황에서 입술을 적게 벌리게 되면 공명 에너지가 입술 밖으로 방출되는 양이 적어져 말 명료도에 악영향을 줄 것으로 사료된다.
둘째, Area3와 FCR를 살펴보면, 우울장애군의 남녀 모두가 비우울장애군보다 Area3가 낮고, FCR이 높았다. 즉, 우울장애 군의 모음 공간 면적이 좁고 모음이 중앙으로 모였다라고 해석할 수 있다. 이는 구강 내부의 면적을 좁게 사용한다는 의미가 된다. 참고로, Area3과 FCR은 모두 3개의 모음 /아, 이, 우/만을 갖고 계산되는 변수(parameter)로 해석의 방식이 같다. 또한 앞서 논의한 LMA와 함께 생각해 본다면 우울장애군이 정면에서 보면 입술을 적게 벌리고, 구강 내부에서도 면적을 좁게 사용한다는 의미가 된다.
셋째, Area5를 살펴보면, Area3와 조금 다른 경향을 보였다. Area3 변수는 남녀 모두 우울장애군이 비우울장애군보다 평균값이 작은데 반해, Area5 변수는 우울장애군 여성이 비우울장애군 여성보다 높은 평균을 보인 반면, 남성은 비우울장애군의 평균이 더 높았다. 분석되는 모음 개수가 증가할 수록 구강 내부에서 혀의 움직임 공간을 더 정밀하게 반영하는 것이고, 발화는 다양한 모음과 자음의 결합된 연속체라는 점을 감안하다면 Area3 보다 Area5 변수의 해석이 일반 대화를 반영한 것으로 여겨진다. 하지만 발화는 단순 자음과 모음의 조합으로만 이루어지지 않으며 각 자음이 갖고 있는 기류량(aspiration) 및 긴장감(tension)의 유기적인 변화가 반영되고 단일 혹은 이중의 모음 변화도 이루어진다. 그러므로 단순하게 모음 몇 개를 갖고 발화에서의 모음 공간을 논하기에는 무리가 있다. 그러나 모음 개수가 증가할 때 모음 공간 면적이 성별 간 다른 양상을 보였다는 점을 보면 근본적으로 남녀간 모음 공간 면적의 차이가 존재한다고 생각한다. 선행연구[13]에서 여성보다 남성이 모음 공간을 더 작게 유지함을 확인하였고 이런 차이는 생리학적 요인과 행동학적 요인의 복합적 작용으로 보았다. 여성과 남성 간의 모음 공간 면적으로 비교한 선행연구에서는 여성이 남성보다 성도(vocal tract) 면적이 작기 때문에 이를 보완하고 선명한 발성을 하기 위해 모음 공간의 주변부를 더 사용하므로 여성의 모음 공간 면적이 크다고 보았으며[14], 이 해석을 본 연구에 적용한다면 비우울장애군의 모음 공간 면적이 우울장애군보다 컸기에 비우울장애군이 모음 공간 주변부를 활용하여 선명한 발성을 했다고 해석 할 수 있다. 선행연구에서는 우울장애군의 기본주파수(F0)는 비우울장애군보다 낮은 경향을 보였지만[1], 본 연구의 기본주파수(F0)는 우울장애군 여성이 비우울장애군 여성보다 높았고 남성은 비우울장애군이 높은 평균을 보였다. 하지만 두 군간의 F0 차이가 본 연구의 논점이 아니다. 본 대상자에 성대병변이 있는 음성장애군이 포함되어 있기 때문에 성대병변으로 인하여 기본주파수 수치에 영향을 준다. 그럼에도 불구하고 기본주파수 결과를 제시한 이유는 성대병변이 있는 대상자들이지만 포먼트 분석을 하기 위해서는 음질이 너무 나쁘면 분석의 신뢰성을 떨어트린다. 즉, 포먼트 분석의 신뢰성을 뒷받침 하고자 F0 수치를 제시한 것이고 본 연구에서는 두 군 모두 F0가 통상적인 범위에 존재하므로 포먼트 분석의 신뢰를 뒷받침했다고 본다. 포먼트 분석의 신뢰성이 확보되었다는 점은 Area3, FCR, Area5 분석을 신뢰할 수 있다. 추가적으로 모음 /아/의 F1와 F2 평균 수치를 살펴보면(Table 4), 우울장애 유무 집단 간 남녀 수치 차이가 크지 않고 2요인 분산분석 결과에서도 유의미한 차이(F1: F=0.234, p=0.630, F2: F=0.006, p=0.941)가 없었다.
본 연구의 한계점은 대상자 수가 적다는 점을 들 수 있다. 우울장애 경중에 따른 음성 특성 차이가 존재할 수 있는데 전체 대상자 수가 적어 우울장애군 선별 점수를 엄격하게 적용하지 못하고 폭 넓게 적용한 점이 아쉬움으로 남는다. 또한 임상에서 바로 사용 가능한 입술 움직임 면적 측정 도구 개발이 이루어지지 못한 점도 아쉬움으로 남는다. 이는 추후 연구에서 보강하도록 하겠다. 그럼에도 불구하고 본 연구에서 구강 개방 측정 및 연습/훈련에 대한 객관적 데이터 확보 방법을 제시하였다.
ACKNOWLEDGEMENTSThis research was supported by Chungnam National University Hospital Research Fund, 2022.
NOTESAuthors’ Contribution Conceptualization: Young Ae Kang, Dong Heon Lee. Data curation: Jae Won Chang, Bon Seok Koo. Formal analysis: Young Ae Kang. Investigation: Young Ae Kang. Supervision: Bon Seok Koo, Dong Heon Lee. Writing—original draft: Young Ae Kang. Writing—review & editing: Young Ae Kang. Approval of final manuscript: all authors. Table 1.Table 2.
Table 3.
REFERENCES1. Kang YA, Koo BS. A study of depression symptom in patients with voice disorders. J Korean Soc Speech Sci 2015;7(2):47-54.
2. Stemple JC, Fry LT. Voice therapy: clinical case studies. 3rd ed. San Diego, CA: Plural Publishing Inc;2010. p.1-10.
3. Almaghrabi SA, Clark SR, Baumert M. Bio-acoustic features of depression: a review. Biomed Signal Process Control 2023;85:105020.
4. Song YK. Characteristics of speech intelligibility and speech acceptability connected with mouth opening condition. Phonetics Speech Sci 2011;3(3):141-8.
5. Boone DR, McFarlane SC, Von Berg SL. The voice and voice therapy. 7th ed. Boston, MA: Allyn & Bacon;2005. p.143-226.
6. Sapienza CM, Stathopoulos ET. Speech task effects on acoustic and aerodynamic measures of women with vocal nodules. J Voice 1995;9(4):413-8.
7. Kessler RC, McGonagle KA, Zhao S, Nelson CB, Hughes M, Eshleman S, et al. Lifetime and 12-month prevalence of DSM-III-R psychiatric disorders in the United States. Results from the national comorbidity survey. Arch Gen Psychiatry 1994;51(1):8-19.
8. Park HJ. Prevalence and related risk factors of depression symptoms for adults in Korea: results from the Korean National Health and Nutrition Examination Survey. Public Health Weekly Report 2009;4(32):569-72.
9. Medical News. The prevalence of depression in Koreans is 36.8%, ranking the first in the OECD [Internet] [published 2021 May 26; cited 2023 April 15]. Available from: http://www.bosa.co.kr/news/articleView.html?idxno=2151448.
10. Park HJ. Change in lip movement during speech by aging: based on a double vowel. Phonetics Speech Sci 2021;13(1):73-9.
11. Kang YA, Yoon KC, Lee HS, Seong CJ. A comparison of parameters of acoustic vowel space in patients with Parkinson’s disease. Phonetics Speech Sci 2010;2(4):185-92.
12. Sapir S, Ramig LO, Spielman JL, Fox C. Formant centralization ratio: a proposal for a new acoustic measure of dysarthric speech. J Speech Lang Hear Res 2010;53(1):114-25.
13. Oh EJ. Effects of speaker gender on vowel space size and vowel changes in Korean. J Stud Lang 2012;28(3):531-53.
14. Park SO. A comparative study of mouth opening according to functional voice disorders and utterance tasks [dissertation]. Gwangju: Graduate School of Chosen Univ.;2015.
|
|