My Profile Photo

DongChanS's blog


수학과 학생의 개발일지


Background and Fundamental theory (2) - Phonetics

오늘날 자주 쓰이고 있는 Fully connect network는 뉴럴 네트워크라고도 불립니다.

그만큼 뉴럴의 구조를 본따서 만들어졌기 때문인데요, 시초는 그렇지만 지금은 뉴럴을 비롯한 사람의 인지과정에 대해서 아는 것이 딥러닝에 그렇게 중요하지 않습니다.

음성인식과 Phonetics(음성학)도 그러한 관계가 될 수 있겠지만 그래도 음성인식을 하기 이전에 사람의 음성이 어떤 특징을 가지는지는 알아두면 좋다고 생각합니다.

이 포스팅은 전반적으로 이곳을 참조하여 만들어졌습니다.

Phonetics

Voicing

1

  • 1 : 폐로부터 공기가 들어온다.

  • 2~4 : 들어온 공기가 성대를 압박하여 열게 한다.

    => 이로써 성문(성대 사이의 공간)에 가해지는 공기압이 약해진다.

    (왜냐하면 공기가 성대에 계속 부딪히면서 공기의 속도가 빨라지고, 이는 공기압을 줄이는 역할을 하기 때문입니다.)

  • 6~10 : 공기압이 줄어듦으로 인해서 성대가 딸깍딸깍하는 행위를 반복합니다.

Voice sounds & Voiceless sounds

  • Voice sound : 폐에서 나온 공기가 성대를 진동시킴.
  • Voiceless sound : 폐에서 나온 공기가 성대를 그냥 지나감.

Consonant & Vowels

참고링크 : 자음, 모음

2

  • Consonant : 조음기관의 수축으로 인한 잡음이 동반되는 소리
  • Vowels : 조음기관의 수축으로 인한 잡음이 동반되지 않는 소리

자음과 모음의 각 특성들에 따라서 음파의 형태가 많이 다릅니다. (sh <-> iy)

7

Consonant의 분류

  • 분류기준 : Voicing & Place of articulation & Manner of articulation

  • Voicing : 공기의 흐름이 성대를 진동시키는가? 아닌가?

  • Place of articulation : 공기가 부딪히는 위치에 따라서 구분할 수 있습니다.

    • bilabial : 두 입술이 만나면서 발음 ([p], [b], [m])
    • labiodental : 윗니와 아랫입술이 만나면서 발음. ( [f], [v])
    • interdental : 혀가 윗니와 아랫니 사이에 들어가면서 발음 ([θ], [ð])
    • alveolar : 혀가 윗니의 맨 윗쪽(산등성이)에 닿으면서 발음 ( [t], [d], [s]) 3

    • palatal : 입천장에 혀가 닿으면서 발음 ( [ʃ], [ʒ], [j])
    • velar : 입천장에 매우 살짝 닿으면서 발음 ( [k], [g])
    • glottal : 공기가 양쪽 성대 사이에서 수축하면서 발음 ( [h] )
  • Manner of articulation : 공기가 어떻게 부딪히는가에 따라서 구분할 수 있습니다.

    • stop sound : 공기를 배출하면서 소리가 발생

      ex) [p],[t],[k],[b],[d],[g]

    • fricative : 공기의 bottleneck를 만들면서 발음됨

      ex) [v], [z], [ʃ], [θ]

    • affricate : 두 소리가 결합되어 발생됨

    • Nasal : 공기가 콧구멍을 통해서 흐르기도 함 ex) [m], [n]

    • liquid : 공기가 혀의 양쪽을 통해서 지나갈 수 있음

      4

    • glide : 거의 공기가 수축하지 않음 ex) [w], [j]

    • tap : 북미권 발음에서만 나오는 특성인데, 혀를 매우 빠르게 튕기면서 발음 ex) Butter

Vowel의 분류

  1. Monopthongs : One vowel quality (cat, sit)

    Dipthongs : Two vowel quality (face, boy)

    • Dipthongs를 따지려면 start vowel과 end vowel에 따라서 구분해야합니다.
  2. Height : 혀의 높이

    • [i]는 혀가 높이 있고 - see
    • [ɛ]는 혀가 중간높이에 위치하고 - bed
    • [a]는 혀가 아래에 위치함. - how
  3. Backness : 혀가 앞쪽에 있는지 뒷쪽에 있는지

    • [i]는 혀가 앞쪽에 위치함.
    • [u]는 혀가 뒷쪽에 위치함.
  4. Roundness : 입술을 굴리면서 발음하는가?

    5

Speech sound waves

!6

  • Y축은 진폭 = Air pressure at the time
    • +는 압력이 높음을 뜻하고, -는 압력이 낮음을 뜻함.
    • 그러므로, 각 음파의 꼭대기지점에서는 성대가 열리면서 소리가 나오게 됩니다.
  • Fundamental frequency = lowest frequency of the complex wave
    • 음고(pitch)에 영향을 많이 주는 요소 => 음성인식에서 매우 중요한 특징

Formants

참고링크 : 유튜브 영상

  • 모음을 발음할 때에 나타나는 음파의 Dominant frequency

    • 이 Formant는 모음을 구분하는 중요한 특성이 됩니다.
  • 일반적으로 3개로 이루어져있음 (아랫쪽에 있는 F1, F2가 일반적으로 중요합니다.)

    9

comments powered by Disqus