DSP : : For Entertainment/: : Audio DSP

STT (Speech-to-Text)

Jay.P Morgan 2023. 10. 31. 21:47

 

STT는 음성 언어를을 컴퓨터가 해석해 텍스트 데이터로 변환하는 작업을 의미하며, 
음성인식(Automatic Speech Recognition)이라고도 한다.

 

  기존에 상용 서비스에 적용되는 음향 모델의 대부분은 확률 통계 방식인 HMM(Hidden Markov Model) 기반으로 이루어졌으며, 2010년대 들어서면서 딥러닝 기반으로 HMM / DNN 방식으로 단어 인식 오류를 개선하여 20% 성능 향상을 이루어 냈다.

 

  이후에는 Sequence-to-Sequence 방식의 RNN 기반으로 속도와 성능 면에서 좋은 결과를 가져오면서, 음성 인식에서도 번역어(End-to-End) 학습 방식의 발전으로 일련의 오디오 특징을 입력으로 일련의 글자(character) 또는 단어들을 출력으로 하는 단일 함수를 학습할 수 있게 되었다.

  또한 CTC (Connectionist Temporal Classification) 라는 모델로 입력 데이터와 레이블 사이의 음성 정렬(alignment) 정보가 없어도 학습이 가능하게 되었다.

 

이 외에도 다양한 학습법을 통해 계속해서 STT의 성능은 향상되고 있다.

 

 최근 STT 모델들의 WER(단어 오류율)과 CER(문자 오류율)을 확인할 수 있다.

 

 

 

 

'DSP : : For Entertainment > : : Audio DSP' 카테고리의 다른 글

심리 음향  (0) 2023.11.02
소리의 물리량  (0) 2023.11.02
Audio Classification  (0) 2023.10.31