DSP : : For Entertainment 5

Sampling & Quantization

표본화(Sampling) 소리는 연속적인 데이터이다. 소리 데이터를 컴퓨터에 저장하기 위해서는 Sampling과 Quantization을 통해 discrete하게 표현해야 한다. 먼저, 실수형태인 시간을 저장하기 위해 sampling을 진행한다. □ Sampling이란 시간을 이산적인 구간으로 나누는 것이다. 즉, 샘플링 간격에 따라 amplitude를 측정하는 것이다. 1초의 연속적인 신호를 몇개의 숫자들의 sequence로 표현할 것인가를 sampling ratefs​이다. sampling rate가 클수록 즉, 자주 sampling할 수록 원본 데이터와 비슷할 것이다. 그러나 그만큼 저장해야 하는 데이터의 양이 늘어나게 된다. sampling rate가 작게 되면 아래와 같이 aliasing이 일어..

심리 음향

소리의 물리적 특성이 동일하더라도 소리는 종종 청자에 따라 다르게 인식되곤 한다. 심리음향이란 공간에서 발생하는 소리라는 물리적 현상을 인간은 기계적으로 받아들이지 않고 주관적이고 감각적으로 인식하는 것을 연구하는 분야가 심리 음향이다. 변 수 내 용 특 성 물리적 변수 압력(pressure) 주파수(frequency) 스펙트럼(spectrum) 지속시간(duration) envelope 소리에 관련된 현상을 객관적으로 설명 주관적 변수 Loudness Pitch Timble Duration 소리의 경험 인간의 주관적인 속성을 감안 LOUDNESS PITCH TIMBLE DURATION PRESSURE 강 약 약 약 FREQUENCY 약 강 약 약 SPECTRUM 약 약 강 약 DURATION 약 약 약..

소리의 물리량

소리는 일반적으로 진동으로 인한 공기의 압축으로 생성된다. 그 압축이 얼마나 되었느냐에 따라서 표현되는 것이 바로 Wave(파동)이다. 파동은 진동하며 공간/매질을 전파해 나가는 현상이다 (소리는 종파이다). 질량의 이동은 없지만 에너지/운동량의 운반은 존재한다. 파동에서 얻을 수 있는 물리량은 크게 세 가지이다. 1. Amplitude: 진폭 2. Frequency: 주파수 3. Phase: 위상

STT (Speech-to-Text)

STT는 음성 언어를을 컴퓨터가 해석해 텍스트 데이터로 변환하는 작업을 의미하며, 음성인식(Automatic Speech Recognition)이라고도 한다. 기존에 상용 서비스에 적용되는 음향 모델의 대부분은 확률 통계 방식인 HMM(Hidden Markov Model) 기반으로 이루어졌으며, 2010년대 들어서면서 딥러닝 기반으로 HMM / DNN 방식으로 단어 인식 오류를 개선하여 20% 성능 향상을 이루어 냈다. 이후에는 Sequence-to-Sequence 방식의 RNN 기반으로 속도와 성능 면에서 좋은 결과를 가져오면서, 음성 인식에서도 번역어(End-to-End) 학습 방식의 발전으로 일련의 오디오 특징을 입력으로 일련의 글자(character) 또는 단어들을 출력으로 하는 단일 함수를 학습..

Audio Classification

IEEE DCASE Challenge(국제 AI 음향 인식 경진대회)의 Task 종목 중 하나로, Acoustic Scene Classification이 있다. 테스트 음원을 미리 정의된 10개의 음향 장면 클래스중 하나로 분류하는 작업이다. 평가는 분류의 정확도, 메모리 사용량 등으로 순위를 정하는데, 이는 알고리즘의 정확성은 물론, 엣지단의 다양한 기기에서도 널리 쓰이기를 목표로 하기 때문이다.