| Home | E-Submission | Sitemap | Editorial Office |  
top_img
J Korean Soc Laryngol Phoniatr Logop > Volume 35(1); 2024 > Article
연속 문장 발화에서 사전 정의된 청크 검출에 대한 인공지능 기반의 후향적 분석 연구

Abstract

Background and Objectives

In institutional settings, manually segmenting connected speech is a time-consuming and labor-intensive process. This study aims to develop a deep-learning model for automating this process, evaluating its accuracy, and determining the minimum dataset size for effective performance.

Materials and Method

Voice data from 524 individuals with pathological conditions and 502 individuals with normal conditions, totaling 1026 samples, were used. Each voice sample had 17 chunks, including a “summer” sentence (15 chunks) and vowels /α/ and /i/. The deep-learning model employed in this study is based on the multi-layer perceptron-mixer architecture. This study evaluated performance using the Intersection over Union (IoU) metric, commonly employed in artificial intelligence-based image detection for chunk segmentation.

Results

The accuracy of chunk identification at the frame level was 96.47%. Using IoU metrics, chunk segmentation accuracy was 98.15% at IoU ≥0.6, 96.03% at IoU ≥0.7, and 89.78% at IoU ≥0.8. Optimal dataset size exploration indicated that more than 700 connected speech datasets were needed for successful training, maintaining F1-scores up to 95% at IoU ≥0.7.

Conclusion

The artificial intelligence model is suitable for the development of an automated system that efficiently divides segments in the institutional collection of voice data. This suggests its potential utility in advancing voice research using connected speech.

서 론

조음장애, 발성장애, 구음장애 등 다양한 목소리와 연관된 질환들은 각기 다른 양상으로 음성이라는 결과물로서 드러나게 되는데, 연속 발화(connected speech)는 이러한 음성의 특징을 종합적으로 보여줄 수 있는 하나의 도구로써 다양한 의학 영역에서 진단 및 검사를 위해 활용되고 있다. 예를들어 구개열 환자에서 관찰될 수 있는 조음장애는 음성 자체가 진단이 되면서, 치료의 결과로 반영될 수 있는데[1], 신경운동성 질환에서는 문장 읽기의 속도나 떨림이 주된 평가요소가 되며[2], 신경정신과 영역의 질환들은 말의 소리 자체보다는 평가대상자가 말하는 문맥이나 논리에 관심을 두게 된다[3].
반면, 연속 발화는 후두음성질환의 주된 연구 대상으로 활용되지 않는데, 그 이유는 후두에서 생성되는 음은 모음(vowel)이기 때문에, 후두음성질환의 양상이 주로 모음의 변화로 관찰되며 이에 따라 ‘아’(/α/) 모음 음성 분석으로도 어느 정도 질병에 대한 파악이 가능하기 때문이다[4]. 그러나 말하기라는 인간의 고위 기능은 단순한 모음만으로 평가하는 것에 한계가 있을 수 있으며, 연축성 발성장애와 같은 비기질적 질환은 단순 모음 발음이 아닌 자음과 모음이 변화하는 동적인 상태에서 질병의 특성이 더 잘 드러나는 경우도 있다[5].
종단 간 분석(end-to-end analysis)이 가능한 인공지능 기술의 발전은 연속 발화 음성을 전체적으로 활용할 수 있어 연속 발화를 이용한 후두음성질환 연구에 대한 기대감을 높이고 있으나, 어떠한 요소가 진단이나 질병의 특성을 반영하는지 수치화 또는 보여주기 등의 설명가능한 연구를 진행하기 위해서는 연속 발화된 문장을 나누어 분석해야 하는 필요성도 함께 요구된다. 다만, 이러한 데이터 정제를 위해 연속 발화를 일정한 구간들로 나누어야 하며, 일일이 사람이 듣고 구간을 정의하는데 상당한 시간이 소요된다는 단점이 존재한다. 본 연구에서는 다양한 후두음성질환 환자들로부터 수집된 연속 발화들을 사전 정의된 청크(chunk)들로 자동으로 영역을 검출(segmentation)하는 것이 가능할 것이라는 가설을 검증하고자 인공지능 모델을 구축하였으며, 이러한 인공지능 모델을 구축하기 위해 어느 정도의 음성 데이터가 필요한지 확인하는 것을 연구의 목적으로 하였다.

대상 및 방법

연구 대상

이 연구는 2010년 1월부터 2016년 12월까지 음성 변화를 주 증상으로 단일 기관에 방문하여 후두내시경 검사를 통해 진단된 총 524명의 환자 및 이에 대한 정상 대조군으로는 동일 기간 내 갑상선 수술을 위해 내원하여 후두내시경 검사를 통해 병리적 소견이 없음이 확인된 502명을 합하여 총 1026명의 음성 데이터를 후향적으로 분석하였다. 병적 음성의 경우, 1) 후두 낭종과 폴립(188명), 2) 성대 마비(175명), 3) 성대 결절(82명), 4) 기능성 발성장애(79명)의 4가지 세부 진단으로 분류되었다. 각 질병의 진단은 의무기록 및 후두내시경 소견을 통해 확인 가능한 환자들만 수집되었다. 이 연구 계획은 기관 내 임상연구윤리위원회의 허가를 받았다(IRB No. H-2304-075-1422).

음성 녹음 및 데이터 구성

모든 환자들은 음성 녹음을 위해 ‘여름 문장’과 ‘아’ 모음과 ‘이’ 모음을 발음하였다. 여름 문장의 구문은 아래와 같다:
‘여름이 오면 이모 댁에 가기로 어머니와 약속했습니다. 시골에서는 오래된 나무 아래에서 책을 읽기도하고, 얼음 같은 우물물에 수박을 담가 놓고 먹습니다.’
여름 문장에 대해 총 15개의 청크로 나누었는데, 환자들이 문장을 읽을 때 각각의 단어를 끊어 말하지 않고 연속적으로 편하게 발음하였기 때문에 대부분의 문장 녹음에서 관찰되는 주된 호흡 단위(syllable per breath)를 반영하였으며, 이에 따라 15개의 청크 구간은 다음과 같이 나뉘었다: 1) 여름이 오면, 2) 이모 댁에, 3) 가기로, 4) 어머니와, 5) 약속했습니다, 6) 시골에서는, 7) 오래된, 8) 나무 아래에서, 9) 책을, 10) 읽기도하고, 11) 얼음 같은, 12) 우물물에, 13) 수박을, 14) 담가 놓고, 15) 먹습니다. 여기에 16) /아/, 17) /이/ 모음까지 총 17개의 청크로 구성된 음원을 하나의 데이터로 정의하였다(Fig. 1).

딥러닝 학습의 정의 및 데이터 전처리 (preprocessing)

이 연구의 목적은 딥러닝을 활용하여 여러 음절로 이루어진 연속 발화를 사전 정의한 청크들로 분리하는 모델을 제안하고 해당 모델의 성능을 평가하는 것이다. 모델의 최종 성능은 음절 검출의 정밀도와 재현율의 조화평균인 F1-score로 평가하였다. 참 양성(true positive), 위 양성(false positive), 참 음성(true negative)은 청크들에 대해 각각 예측 구간과 실제 구간이 겹치는 영역을 두 영역의 합으로 나눈 값인 Intersection over Union (IoU) 임계치를 기준으로 구분하였다. IoU에 대한 정의는 아래와 같다.
IoU=Area of IntersectionArea of Union
학습과 평가를 위한 음성 데이터는 음원을 멜-스펙트로그램으로 변환시켜 로그 스케일로 표현된 주파수 축과 시간 프레임으로 구성된 2차원 배열로 변환시켜 활용하였다. 각 멜-스펙트로그램은 정규화를 통해 0에서 1 사이의 소수 값으로 정규화시켰고, 배치 학습을 위해 모두 같은 시간 프레임을 가지도록 우측에 0을 추가하여 길이를 동일하게 하는 제로 패딩(zero-padding)을 진행하였다. 최종적으로 가장 긴 시간 프레임을 가지는 데이터를 기준으로 제로 패딩을 더하여 모든 멜-스펙트로그램을 256×3600 크기의 2차원 데이터로 변환시켰다.
인공지능 학습과 검증을 위해 전체 데이터는 8:2의 비율로 학습용 데이터와 검증용 데이터로 분리하였으며, 4가지 질환 및 정상군으로 이루어진 5개 층위의 비율 및 각 진단별 성별의 비를 전체 데이터에서 보이는 동일한 비율로 추출(stratified sampling)하였다. 검증은 5겹 교차 검증(5-fold cross validation)을 이용하여 각 학습에서 최소 검증 손실 값을 보이는 시점의 정확도를 이용하였다.

다층 퍼셉트론-믹서(Multilayer perceptron-mixer) 기반의 딥러닝 모델

연속 발화 데이터의 특성과 음절 분리라는 목표의 특수성을 고려하여 다층 퍼셉트론-믹서(multilayer perceptron-mixer, MLP-mixer) 기반의 새로운 모델을 설계하여 활용하였다[6]. MLP-mixer는 MLP층만을 활용하여 이미지 영역에 적용한 딥러닝 모델이다. MLP-mixer 모델의 구조는 두가지의 MLP층인 토큰 혼합(token-mixing) MLP과 채널 혼합(channelmixing) MLP으로 구성되며, 각 MLP층들은 입력과 동일한 형태의 값을 출력하는 특징 추출 층이다. 입력된 이미지를 패치(patch) 형태로 나눈 후, 2차원 컨볼루션(convolution) 층을 통해 임베딩(embedding)을 수행하여 차원변환을 통해 벡터로 변환한 후, 토큰 혼합 MLP층에 통과시켜 특징을 추출한다. 패치에서 추출된 특징들에 대해 행 단위(column-wise)로 다시 MLP층에 통과시킨다(Channel-mixing MLP). 이후 토큰 혼합과 채널 혼합의 출력 값을 합하여 각 이미지 패치 내의 정보와 패치 간 상호 관계를 종합적으로 고려할 수 있다.
본 연구에서는 MLP-mixer의 방법론을 데이터의 특성에 맞게 변형하여 활용하였다(Fig. 2). 멜-스펙트로그램을 주파수 방향(Hertz-wise) MLP와 시간 방향(Time-wise) MLP로 구성된 N개의 층을 통과시킨 후, 완전 연결층(fully connected layer)층과 소프트맥스(softmax) 함수를 거쳐 각 시간 단위 별 클래스를 분류했다. 주파수 방향 MLP에서는 각 하나의 시간 단위 별 입력값(H×1 단위)을 각각 MLP 층에 통과시켰고, 시간 방향 MLP에서는 일정한 단위로 스펙트로그램을 잘라 토큰화 한 후, 각 토큰의 y축인 주파수 별 입력값(1×W 단위)을 MLP층에 통과시켰다. 이때, 각 스펙트로그램 토큰은 256×W 프레임의 크기를 가지며 S 프레임마다 잘라내었다. 각 토큰은 시간 방향 MLP층을 지나 합병(merge) 단계에서 기존 위치로 재배열되고 겹치는 부분에 대해서 평균을 내어 결과 값의 크기를 스펙트로그램 입력 값과 동일한 2D 이미지의 크기로 유지했다. 위 두 가지 종류의 MLP 구조를 통해 연속 발화 중 특정 시점에서의 정보와 그 시점으로부터 시간적으로 인접한 음성 정보 간의 상호 관계를 모두 고려할 수 있도록 하였다. 이때, H는 로그-스케일 된 주파수(hertz) 값의 높이로 본 연구 상 음성 데이터의 멜-스펙트로그램 변환 후 세로축이 256개의 값으로 구성되어, H=256이었으며, 인공지능 학습 시 사전 정의하는 초 매개변수(hyperparameter)인 N, W, S는 각각 N=9, W=300, S=150에서 가장 좋은 성능을 보였다.

밀도 기반의 청크 탐색 알고리즘

위에서 언급한 모델을 활용하여 각 시간 단위 별 클래스를 분류한 후, 각 청크의 시작 및 종료 위치를 구하기 위하여 밀도 기반의 청크 탐색 알고리즘(density-based chunk search algorithm)을 고안하였다. 모델의 잘못된 예측 값이 청크의 위치를 크게 왜곡시킬 수 있기 때문에, 특정 청크에 대한 예측 값이 가장 밀집된 시간 축을 찾고, 그 앞뒤의 시간을 탐색하면서 동일한 청크에 대해 예측한 밀도가 임계치보다 낮아진 위치를 음절의 시작 지점과 끝 지점으로 하였다(Fig. 3). 밀도를 계산할 커널 크기(kernel size, K), 밀도 임계치(threshold)는 초 매개변수로 본 연구에서는 각각 K=200, threshold=0.7을 활용하였다.

데이터셋 크기에 따른 정확도 변화 확인

청크 분리에 대한 정확도를 확인한 뒤 전체 데이터 크기 대비 동일한 정확도를 보이는 최소 데이터 요구량을 확인해보았다. 총 1026건에 대비하여 데이터셋의 비율을 2%에서부터 10%까지는 2% 간격으로 증가시키고, 이후 10%씩 증가시키면서 F1-score를 구하였다. 데이터셋의 비율이 설정되면 특정한 난수(random seed)를 만들어 전체 데이터에서 관찰되는 진단과 성별의 비율을 유지한 샘플 추출을 시행하였다. 샘플링 된 데이터셋은 다시 동일한 진단 및 성별 비율을 지닌 8:2로 학습과 검증 데이터셋으로 나뉜 뒤 전체 데이터를 분석할 때와 동일하게 5겹 교차 검증을 통해 정확도를 확인하였다.

결 과

데이터셋과 학습 결과

본 연구에 사용된 1026건의 음성 데이터 중 정상 음성의 경우 남성 243명, 여성 259명으로 평균 51.3±13.5세의 분포를 보였으며, 병적 음성의 경우 남성 235명, 여성 289명으로 평균 53.6±14.8세의 분포를 보여, 양 그룹 간에 유의한 차이를 보였으나(p=0.009, t-test), 본 연구는 정상과 병적 음성의 분류가 주된 목표가 아닌, 정상과 병적 음성 구분없이 음성 데이터 내의 청크 분리가 목표였기 때문에 연구 목표에 영향을 주지 않는 것으로 판단하였다(Table 1). 청크의 경우 892명(86.9%)의 환자에서 17개가 모두 올바르게 있었으며, 119명(11.6%)에 서 하나의 청크가 누락되었고, 13명(1.3%)에서 두개의 청크가 누락, 2명(0.2%)에서 3개의 청크가 누락되어, 전체적으로 한 데이터당 평균 16.85개의 청크가 존재하였다. 17개 각각 청크의 길이는 청크 별로, 대상자 별로 녹음된 시간의 길이가 조금씩은 상의하였으나, 하나당 평균 0.99초의 길이였으며 가장 짧은 청크는 9번(‘책을’)으로 16프레임(0.18초)만에 발음된 경우였다.
전체 데이터셋을 이용하여 연구진이 고안한 MLP-mixer 기반의 딥러닝 모델을 활용한 학습을 진행하였다. 모델 학습을 위한 손실 함수로 교차 엔트로피(cross entropy)를 사용하였으며, 최적화를 위한 알고리즘(optimizer)은 Adam 옵티마이저(optimizer)가 사용되었다. 초기 학습률은 0.01로 시작하여 코사인 어닐링 일정(cosine annealing scheduler)을 활용하여 0까지 낮췄다. 총 50 에포크(epoch) 학습했으며 일부 데이터만을 추출하여 학습시킬 때는 동일한 모델학습을 위해 원본 데이터셋과 동일한 사이즈로 무작위 오버샘플링(oversampling)하였다. 가중치 감쇠(weight decay)는 적용하지 않았으며 학습 및 검증 데이터셋은 8:2 비율로 나누어 활용하였다. 그 결과 여덟 번째 에포크만에 학습 데이터셋 및 테스트 데이터셋의 최저 손실 값 및 최대 정확도를 달성하였으며(Fig. 4), 이 모델을 이용한 청크 분리의 실제 결과를 확인할 수 있었다(Fig. 5).

임계 값에 따른 청크 검출성능 확인

음성 데이터의 각 시간 축 프레임 단위로 그 부분이 어떤 청크인지 맞추는 정확도는 96.47%로 확인되었다(Table 2). 다만 청크 분리를 위해서는 프레임 단위가 아닌 구간 단위로 보아야 하기 때문에 인공지능이 인지한 각 청크의 시작 지점과 종료 지점에 대한 정확도가 의미가 있는 결과가 된다. 구간에 대한 예측이 어느 정도 일치했을 때 이를 정답으로 인정하는지에 대한 임계값을 IoU를 변화시켜가면서 확인을 하였는데, 이는 다시말해 몇 번째 청크인지 정확히 맞추었더라도 그 구간이 기준 이상 과하거나 적게 측정된 경우 틀린 것으로 설정하였다. 그 결과 영역 검출에 있어 IoU 0.6 이상을 정답이 되는 기준으로 했을 때 98.15%, IoU 0.7 이상을 기준으로 했을 때 96.03%, IoU 0.8 이상을 기준으로 했을 때 89.78%의 정확도를 보였다(Table 2).

데이터셋 크기에 따른 정확도 변화

연구에서 1026건의 데이터를 활용할 경우 약 10번의 에포크 만으로도 90%를 상회하는 결과를 얻을 수 있었으며, 이러한 결과는 단일 의료 기관에서 정해진 규칙에 의해 녹음되는 음성 데이터셋을 인공지능 연구로 활용하는 방법에 대한 하나의 표본이 될 수 있을 것으로 판단하였다. 동일한 성능을 달성하기 위해 어느 정도의 데이터 숫자가 모였을 때 인공지능 학습이 성공적으로 이루어지는지 데이터셋의 최소 요구량을 파악해보았다. 이를 위해 각 진단 별, 성별 비율을 유지하면서 데이터 셋의 사이즈를 단계적으로 조절하면서 최대 정확도를 구하였으며, 그 결과 IoU 0.7 이상에서 95%의 F1-score를 달성하는 것을 목표로 하였을 때, 0.7 비율의 데이터셋에서 해당 기준(95.0%)을 달성할 수 있었다(Fig. 6).

고 찰

딥러닝, 머신러닝과 같은 인공지능 분석 기술의 발달은 후두음성질환의 영역에서 음성만을 이용하여 질환을 진단하고 환자의 목소리를 평가하려는 시도에 새로운 가능성을 보여 주고 있다. 기존의 공개되었던 음성 데이터베이스를 이용했을 때 다양한 머신러닝 기법을 이용한 /아/ 모음 분석만으로도 95% 이상, 최대 99.99%에 이르는 후두음성질환의 정확도를 보여주는 보고들도 있었다[7]. 동일 데이터셋을 이용한 연구에서 연속 발화 또한 /아/ 모음 연구와 비슷한 수준의 진단 정확도를 보이기도 했다[8]. 그러나 Massachusetts Eye and Ear Infirmary 데이터셋의 경우[9], 정상 음성과 병적 음성의 녹음환경이 다르다는 결정적인 문제로 인하여 현재는 잘 활용되지 않고 있으며, Saarbruecken Voice Database는 문장 읽기의 길이가 2초 정도밖에 되지 않아 활용도가 낮다[10]. 이러한 이유들로 특정 데이터셋을 이용한 학습 결과를 온전히 받아들이기에는 한계가 있고, 외부 검증으로 활용하기에는 제약이 있는 것이 현실이다. 또한 각각의 데이터셋들은 후향적인 수집을 기반으로 하여, 질환이 있지만 음성이 크게 나쁘지 않거나, 질환이 없는데 애성이 있는 환자들이 선별적으로 포함되지 않았을 가능성도 있어, 음성만을 이용하는 방식을 임상 현장에 바로 적용하는 것은 쉽지 않다. 또한 후두경 검사라는 강력한 진단적인 검사 도구가 있기 때문에, 음성을 단순히 질병 진단이라는 목표가 아닌, 환자의 음성 상태를 정량적으로 파악하는 도구에 더 의미를 부여할 수 있을 것이며, 단모음 분석에서 확인할 수 없는 병적인 음성의 특성을 연속 발화에서 확인하는 목적으로 활용할 수 있을 것으로 판단된다. 예를들면 몇몇 질환의 무성음, 유성음 간의 연속적인 변화에서 드러나는 음 이탈(pitch break), 음성 단절(break) 과 현상은 연속적인 단모음 발화에서는 관찰하기 어렵다.
음성을 이용한 연구를 진행하기 위해서는 각각의 의료 기관에서 녹음된 음성을 전처리 해야 할 필요가 있다. 음성을 녹음하는 시점에 정해진 기준으로 나누어 저장하지 않았다면, 많은 음성 자료들이 하나의 음원에 연달아 녹음될 수 있으며 활용이 필요한 시점에 많은 시간과 인적 노동력 투입이 요구된다. 또한 최근의 딥러닝 알고리즘과 획기적으로 늘어난 메모리 용량으로 인하여 연속 발화를 전체적으로 활용하는 종단간 분석도 가능하나, 질병과 음성 변화의 특징을 정의해 내기 위해서는 어떠한 단어, 어떠한 음절에서 질병 진단의 확률이 높아지는지 양상을 파악하는 것 등의 분석이 동반되어야 하기 때문에 연속 발화의 경우 일정하게 구간을 나누어 볼 필요가 생긴다. 이 경우, 연속 발화의 경우 대상자들마다 말하는 속도와 숨쉬는 위치 등이 다양하여 일률적으로 자동화하기 어려우며, 매 녹음 시점에 검사자가 일일이 듣고 나누는 것은 현실적으로 불가능한 일이다. 이에 본 연구는 딥러닝을 활용하여 정상 음성과 후두 질환이 있는 대상자로부터 녹음된 연속 발화를 사전에 정의한 청크들로 나누게 함으로써 추후에 수집될 자료들을 자동 분류하여 연구의 효율을 높이는 방법론을 제시하고자 하였으며, 더 나아가 단일 의료기관에서 어느 정도의 데이터가 있어야 자동화를 위한 인공지능 모델 학습이 높은 정확도를 달성 가능한지를 시험해보고자 하였다. 다만, 연구 목표인 연속된 발화를 나눔에 있어 그 기준을 정의하는 방식은 연구자별로, 연구의 목표별로 상이할 수 있다. 본 기관의 음성 녹음은 각 단어를 또박또박 나누어 읽는 형태가 아닌 자연스럽고 속도에 제한을 두지 않는 발화의 형태를 취하였기 때문에 문장의 단어나 음절 어절과 같은 단위가 아닌 덩어리를 의미하는 ‘청크’로 나누었으며, 그 기준은 대상자들이 발화를 할 때 숨을 쉬면서 동일하게 띄어지는 주된 위치를 연구자가 주관적으로 판단하여 선택하였다.
위와 같이 준비된 음성 데이터를 딥러닝에 활용하기 위해서는 두가지 방법이 있는데, 하나는 시간과 진폭 값으로 저장된 음성 신호를 바로 활용하는 방법과 음성 신호를 시간과 주파수 축으로 나타내는 멜-스펙트로그램 변환을 하여 이미지처럼 분석하는 방식이다[11]. 본 연구에서는 멜-스펙트로그램 변환을 이용하여 이미지 처리하는 방식을 사용하였는데, 음성 신호에 비교하여 이미지 데이터는 증강과 관련된 기법이 잘 정립되어 있고, 이미 다양한 문헌을 통해 좋은 성능이 보고된 바 있기 때문이다[12-14]. 이미지 처리를 위한 인공지능 모델로는 MLP-mixer를 활용하였다. 이 알고리즘은 딥러닝을 활용한 이미지 처리 부분의 최신 기법으로, 공개 데이터 셋인 ImageNet-21k에 대해 높은 정확도와 빠른 처리속도를 달성한바 있다[6,15]. 이 연구에서는 멜-스펙트로그램 데이터의 특성에 맞게 변형하여 음성 데이터에 효과적으로 적용할 수 있는 MLP-mixer 방법론을 제안하였다. 기존 MLP-mixer 모델은 이미지 패치에 대해 2차원 컨볼루션 층을 통해 데이터를 1차원으로 임베딩하여 토큰 및 채널 혼합에 활용한다. 하지만 음성신호는 이미지와 다르게 시간적인 측면에서의 정보 또한 의미가 있기 때문에 2차원 컨볼루션을 통한 임베딩을 수행하지 않고 직접적으로 MLP층에 입력하는 방법으로 새롭게 구현하였다. 결과적으로 최신의 알고리즘을 이용한 약 1000건의 연속 발화 데이터를 이용한 청크 분리에 대해 IoU 0.8 이상을 기준으로 잡을 때 90%의 정확도를 보였다. 본 연구 모델에서 특정 청크의 구간을 예측하는데 있어 다른 청크 구간을 침범한 경우 뿐만 아니라, 청크 사이의 여백 공간에 대해서도 잘못 예측한 경우로 정의되었다는 점에서 실제 인식률은 이보다 더 높을 것으로 생각할 수 있다. 더불어, 임계값을 IoU 0.7 이상으로 낮출 경우 정확도는 96%까지 올라감을 확인하였다.
위의 결과로부터 역으로 동일한 정확도를 달성하기 위해 최소 어느 정도의 데이터 셋이 구성되어야 하는지 확인했을 때, IoU 0.7 기준으로 95% 정확도를 달성하는 실험에서는 전체 데이터셋 대비 0.7 비율의 데이터, 즉 700건 이상의 음성 데이터가 있을 때 달성 가능함이 확인되었다. 딥러닝을 활용하는 측면에서 700여건의 데이터는 많은 숫자가 아니나, 학습데이터로서 음성 데이터를 정제하는 측면에서는 결코 쉽게 준비가능한 숫자는 아니다. 따라서, 연속 발화의 청크 분리는 일회성 연구를 위한 준비가 아닌 기관 내 수집된 자료를 활용하여 동일한 형태로 전향적으로 수집되는 데이터의 정제를 위한, 인적 노동력의 투입을 줄이고 자동화하는 시스템을 구축하는 측면으로 접근해야 할 필요가 있겠다.
최근 음성 연구의 경향은 종단 간 분석을 활용하는 경우가 많아, 이 연구와 최신의 음성 연구와 직접적인 비교는 어려운 부분이 있다. 본 연구 목표가 음성인식(speech-to-text)과 같은 자연어 처리가 아니기 때문에 최신의 음성 연구들과는 접근 방식이 다른 점이 있으며, 이미 정해져 있는 문장에 대한 발화 자료이기 때문에 일종의 고정된 데이터셋(closed dataset) 연구라고 보아야 하며, 다양한 문장, 발화를 활용하는 일반적인 자연어 연구와 다르게 음성의 의미론(semantics)을 배제시킨다는 측면이 있다. 이에 따라 음성이 아니더라도 시계열적인 데이터에 대한 구간 검출과 관련된 연구가 비교대상이 될 수 있는데, 예를들면 수면다원검사 분석, 심전도, 뇌파를 활용하는 연구들이다. 이러한 생체 신호 연구는 해당 검사에서 관찰되는 데이터 중 특정한 구간들의 검출이 목표가 되기 때문인데, 목적은 다르지만 방법론은 비슷하여 대부분 순환 신경망, 1D 합성곱 신경망 등의 시계열 분석 알고리즘을 활용하고 있다[16-19]. 그러나 시계열 분석에서 일반적으로 활용되는 알고리즘들은 입력데이터의 길이가 길어질 경우, 학습 및 최적화가 어려우며 계산 복잡도가 크게 증가할 수 있어, 이미지 처리 기법과 같은 다양한 알고리즘을 차용하게 되는데, 이중 수면 중 뇌파 시그널을 이용한 수면 단계 검출에 대한 연구가 좋은 사례로서, 이미지 분할에 활용되는 U-Net 구조를 변형하여 시계열적인 정보를 처리할 수 있는 모델을 활용하였다[19]. 본 연구에서도 입력 데이터의 크기가 크기 때문에 높은 계산 복잡도가 예상된다는 점, 각 청크들이 가지는 패턴이 비교적 간단하고 명확하다는 측면에서 단순히 시간의 흐름만 고려하는 것이 아닌 주변 신호와의 관계를 통한 특징 추출이 가능할 것이라고 판단하여 MLP 기반의 구조를 활용한 모델을 만들었으며, 이는 비교적 흔하게 사용되는 이미지 처리에서의 합성곱 신경망과 같이 인접한 프레임 간 맥락을 고려할 수 있다는 장점과 동시에 시간 축과 주파수 축의 연산을 분리하는 형태를 취하여 인공지능 학습에 필요한 하드웨어 자원의 요구를 줄일 수 있었다.
그동안 연속 발화 분석이 잘 활용될 수 없었던 주된 이유 중 하나로 정량화의 어려움 등을 들 수 있다. 모음 발성의 경우 jitter, shimmer와 같은 이미 오래전부터 정립된 파라미터들을 쉽게 추출할 수 있으며, 이로부터 파생되는 다양한 지표가 활용 가능하다는 장점이 있다. 반면, 연속 발화는 이러한 지표 설정 뿐 아니라 그것을 추출하는 과정 또한 어려움이 있다는 점이다. 딥러닝 분석의 발전으로 연속문장을 전체적으로 활용할 수 있는 방법이 늘어났으나, 임상에서 활용되기 위해서는 정량화된 수치로의 표현, 또는 구체적인 보여주기가 가능해야 한다. 이와같이 설명가능한 인공지능 모델을 구축하기 위해서는 연속된 발화를 구간별로 나누어서 활용하는 방법이 보조적으로 이용될 것으로 생각하는 가운데 본 연구가 기관 내 음성 데이터의 활용에 있어 참고 자료로 활용될 수 있을 것으로 판단된다.
본 연구의 제한점으로는, 단일 기관 연구로 연구 결과의 적용이 녹음 환경이 다른 경우, 녹음하는 연속 발화의 내용이 다른 경우에는 그대로 적용하기 어려우며, 음원의 길이와 읽기 방식 등의 다양한 자료 수집 방식의 차이가 유발할 수 있는 결과의 변화를 볼 수 없다는 점이다. 또한 녹음 대상자들의 연령대가 특정 연령대로 몰려 있기 때문에 범용적인 활용에 제약이 있다. 다만 이러한 부분은 특정 연령대가 주로 방문하는 해당 기관의 특성을 간직하는 것으로, 단일 기관 내 활용에는 오히려 장점이 될 수도 있는 부분으로 판단된다. 또한 본 연구에서 사용한 청크는 연구자의 주관적인 기준으로 정의되어 그 기준을 제시할 수 없는 제한점이 있어, 동일한 문장을 읽더라도 연구자의 판단에 따라 다른 단위로도 분리가 가능하여 객관적인 비교 및 정량화가 어려운 한계가 있다.

결 론

기관 내 녹음된 연속 문장 발화를 사전 정의된 청크들로 나누어 각 구간을 판별하는 딥러닝 모델을 만들었으며, IoU 0.8 이상을 기준으로 할 경우 89.8%, IoU 0.7 이상을 기준으로 할 경우 96.0%의 정확도를 보임을 확인하였다. IoU 0.7 이상에서 95%의 정확도를 달성하기 위해서는 최소 6-700건의 음성 데이터가 필요함을 확인할 수 있었으며, 이렇게 학습된 인공지능 모델은 기관 내 추가적인 음성 데이터 수집에 있어 자동으로 구간을 나누어, 연속 문장 발화를 활용한 음성 연구 진행을 효율적으로 진행할 수 있는 자동화된 시스템 개발에 활용할 수 있을 것으로 판단된다.

ACKNOWLEDGEMENTS

None

NOTES

Funding Statement

This work was supported by the National Research Foundation of Korea Grant funded by the Korean Government (NRF-RS-2023-00210922) and Young Investigator Award (YIA) 2023 of the Korean Society of Laryngology, Phoniatrics and Logopedics.

Conflicts of Interest

The authors have no financial conflicts of interest.

Authors’ Contribution

Conceptualization: Jungirl Seok. Data curation: Jungirl Seok, Jehyun Lee. Formal analysis: Jae Yeong Kim, Jeong Hoon Lee. Investigation: Jae Yeong Kim, Jungirl Seok. Methodology: Jae Yeong Kim, Jungirl Seok. Project administration: Tack-Kyun Kwon. Supervision: Tack-Kyun Kwon. Writing—original draft: Jae Yeong Kim, Jungirl Seok. Writing—review & editing: all authors. Approval of final manuscript: all authors.

Fig. 1.
Composition of audio data. The data consists of ‘Summer’ sentences, structured with 15 chunks and including the vowels /a/ and /i/, resulting in a total of 17 chunks. The data is represented by a waveform image (A), expressed in the time and amplitude axes, and a Melspectrogram images (B), depicted on the time and frequency axes.
jkslp-2024-35-1-15f1.jpg
Fig. 2.
Schematic overview of the Multilayer perceptron-mixer (MLP-mixer) based deep learning model (A), and composition of the mixer layer (B). H, height; F, frame; FC, fully connected layer; P, no. of patches; W, width; T, transpose.
jkslp-2024-35-1-15f2.jpg
Fig. 3.
Pseudocode of density-based chunk search algorithm.
jkslp-2024-35-1-15f3.jpg
Fig. 4.
The designed deep learning model achieved its maximum accuracy and lowest loss value during the 8th epoch. Loss (A) and accuracy graph (B) of the proposed model.
jkslp-2024-35-1-15f4.jpg
Fig. 5.
Exemplary figure of chunk detection and segmentation. Mel-spectrogram (A), ground-truth (B), and inference by the deep learning model (C).
jkslp-2024-35-1-15f5.jpg
Fig. 6.
Accuracy trends in chunk segmentation based on the sampled dataset compared to the entire dataset (1026 cases). Achieved 95.0% accuracy at ratio 0.7 (718 cases).
jkslp-2024-35-1-15f6.jpg
Table 1.
Demographics of the dataset (n=1026)
Diagnosis No. of subject (male / female) Age
Normal voice 502 (243/259) 51.3±13.5
Pathologic voice 524 (235/289) 53.6±14.8
 Vocal cyst or polyp 188 (99/89) 49.6±12.4
 Vocal paralysis 175 (88/87) 55.9±15.0
 Vocal nodules 82 (35/47) 48.6±15.0
 Functional dysphonia 79 (13/55) 50.2±15.7
Table 2.
Accuracy (F1-score) for chunk detection and segmentation on various evaluation criteria
Threshold By Chunk (detection and segmentation)
By Frame (detection only)
IoU ≥0.6 IoU ≥0.7 IoU ≥0.8
F1-score (%) 98.15 96.03 89.78 96.47

IoU, intersection of union

REFERENCES

1. Sell D. Issues in perceptual speech analysis in cleft palate and related disorders: a review. Int J Lang Commun Disord 2005;40(2):103-21.
crossref pmid
2. Boschi V, Catricalà E, Consonni M, Chesi C, Moro A, Cappa SF. Connected speech in neurodegenerative language disorders: a review. Front Psychol 2017;8:269.
crossref pmid pmc
3. Corcoran CM, Cecchi GA. Using language processing and speech analysis for the identification of psychosis and other disorders. Biol Psychiatry Cogn Neurosci Neuroimaging 2020;5(8):770-9.
crossref pmid pmc
4. Seok J, Kwon TK. [Artificial intelligence for clinical research in voice disease]. J Korean Soc Laryngol Phoniatr Logop 2022;33(3):142-55 Korean.
crossref pdf
5. Hintze JM, Ludlow CL, Bansberg SF, Adler CH, Lott DG. Spasmodic dysphonia: a review. Part 2: characterization of pathophysiology. Otolaryngol Head Neck Surg 2017;157(4):558-64.
crossref pmid pdf
6. Tolstikhin IO, Houlsby N, Kolesnikov A, Beyer L, Zhai X, Unterthiner T, et al. MLP-Mixer: an all-MLP architecture for vision. arXiv [Preprint] 2021 [cited 2023 October 1]. Available from: https://doi.org/10.48550/arXiv.2105.01601.
crossref
7. Syed SA, Rashid M, Hussain S. Meta-analysis of voice disorders databases and applied machine learning techniques. Math Biosci Eng 2020;17(6):7958-79.
crossref pmid
8. Mesallam TA, Farahat M, Malki KH, Alsulaiman M, Ali Z, Al-Nasheri A, et al. Development of the Arabic voice pathology database and its evaluation by using speech features and machine learning algorithms. J Healthc Eng 2017;2017:8783751.
crossref pmid pmc pdf
9. Kay Elemetrics Corporation. Disordered voice database, model 4337 (version 1.03). Lincoln Park: Kay Elemetrics Corporation;1994.

10. Woldert-Jokisz B. Saarbruecken voice database. Saarbrücken: Institute of Phonetics, Saarland University;2007.

11. Zabidi A, Yassin I, Hassan H, Ismail N, Hamzah M, Rizman Z, et al. Detection of asphyxia in infants using deep learning convolutional neural network (CNN) trained on Mel frequency cepstrum coefficient (MFCC) features extracted from cry sounds. J Fundam Appl Sci 2017;9(3S):768-78.
crossref
12. Kim H, Jeon J, Han YJ, Joo Y, Lee J, Lee S, et al. Convolutional neural network classifies pathological voice change in laryngeal cancer with high accuracy. J Clin Med 2020;9(11):3415.
crossref
13. Hu HC, Chang SY, Wang CH, Li KJ, Cho HY, Chen YT, et al. Deep learning application for vocal fold disease prediction through voice recognition: preliminary development study. J Med Internet Res 2021;23(6):e25247.
crossref pmid pmc
14. Xie X, Cai H, Li C, Wu Y, Ding F. A voice disease detection method based on MFCCs and shallow CNN. J Voice In press 2023. https://doi.org/10.1016/j.jvoice.2023.09.024.
crossref pmid
15. Ridnik T, Ben-Baruch E, Noy A, Zelnik-Manor L. ImageNet-21K pretraining for the masses. arXiv [Preprint] 2021 [cited 2023 October 1]. Available from: https://doi.org/10.48550/arXiv.2104.10972.
crossref
16. Zhang J, Tang Z, Gao J, Lin L, Liu Z, Wu H, et al. Automatic detection of obstructive sleep apnea events using a deep CNN-LSTM model. Comput Intell Neurosci 2021;2021:5594733.
crossref pdf
17. Yu H, Liu D, Zhao J, Chen Z, Gou C, Huang X, et al. A sleep apneahypopnea syndrome automatic detection and subtype classification method based on LSTM-CNN. Biomed Signal Process Control 2022;71:103240.
crossref
18. Ullah I, Hussain M, Aboalsamh H. An automated system for epilepsy detection using EEG brain signals based on deep learning approach. Expert Syst Appl 2018;107:61-71.
crossref
19. Perslev M, Jensen MH, Darkner S, Jennum PJ, Igel C. U-time: a fully convolutional network for time series segmentation applied to sleep staging. arXiv [Preprint] 2019 [cited 2024 February 15]. Available from: https://doi.org/10.48550/arXiv.1910.11162.
crossref
TOOLS
PDF Links  PDF Links
PubReader  PubReader
ePub Link  ePub Link
XML Download  XML Download
Full text via DOI  Full text via DOI
Download Citation  Download Citation
  Print
METRICS
0
Crossref
0
Scopus
653
View
7
Download
Related article
Editorial Office
Journal of The Korean Society of Laryngology, Phoniatrics and Logopedics, Ewha Womans University, College of Medicine.
Anyangcheon-ro 1071, Yangcheon-gu, Seoul, Republic of Korea
TEL: +82-10-3008-3075   FAX: +82-2-2646-3076    E-mail: secretary@kslpl.org
About |  Browse Articles |  Current Issue |  For Authors and Reviewers
Copyright © Journal of The Korean Society of Laryngology, Phoniatrics and Logopedics.                 Developed in M2PI