1) Mel filtering
1-1. harmonic structure
-
Harmonic : 기본 진동수의 배수에 달하는 파동 참고
- 기본 진동수 : periodic waveform의 lowest frequency
-
Harmonic structure : 출처
- Spectrogram of this recording of a violin playing. Note the harmonics occurring at whole-number multiples of the fundamental frequency.
이렇게 기본 진동수의 배수에 해당하는 파동이 발생할 때, 스펙트로그램은 줄 모양이 생기게 되고, 이것을 harmonic structure이라고 합니다.
이는 고려할 수 없는 factor들에 의해서 생기는 경우가 많기 때문에, harmonic structure를 제거해야한다고 합니다.
1-2. Mel filterbank
Voiced regions에서 발생되는 harmonic structure들이나, Unvoiced regions에서 발생되는 random noise들을 제거하기 위해서 smoothing 기법인 Filterbank를 사용합니다.
Filterbank는 여러 band-pass filter들의 모임이라고 할 수 있습니다.
-
Band-pass filter : 특정 진동수 범위의 파동만 남기는 필터
, Filter의 크기는
log(frequency)
에 비례합니다.
스펙트로그램에 filterbank를 거치게 되면, 여러 subband signal들을 얻을 수 있습니다.
그 중에서, mel filterbank
는 특징 추출에 가장 많이 사용되며 다음 장점이 있습니다.
-
- Mel-frequency scaling
-
사실 DFT를 통해서 얻어진 스펙트로그램은 여전히 음성인식에 대해서 불필요한 정보를 많이 가지고 있습니다.
우리 달팽이관은 고주파로 올라갈 수록 주파수 구분을 잘 못하기 때문에, 저주파에 더 많은 Filter들을 둠으로써 사람이 더 잘 들을 수 있는 스케일로 진동수를 조절합니다. 출처
- Capture the spectral envelope: DFT를 통해서 얻어진 spectral에 대한 rough approximation역할을 하면서도, 실질적으로 feature의 차원을 제거하지 않음.
Mel filterbank는 행렬로도 표현할 수 있는데, 행렬곱을 통해서 magnitude spectrum을 연산할 수 있습니다.
1-3. Log compression
인간의 귀는 소리의 크기를 Linear scale로 감지하는 것이 아니기 때문에, 로그를 씌워서 Filterbank의 에너지를 압축합니다.
이것을 Log compression이라고 부릅니다.
DFT를 통해서 얻어진 스펙트럼에 이러한 과정들을 거치면 random noise나 harmonic structure들을 제거할 수 있습니다.