타코트론2 한국어 오디오 샘플

Audio samples from "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions"

Paper: arXiv

"타코트론 2"는 Spectrogram Prediction Network와 modified Wavenet으로 구성되어 있다. 구글 Deepmind 에서 개발된 Wavenet은 input이 복잡한 단점이 있는데 (linguistic and acoustic feature with phase information) 이 논문에서 input으로 phase information이 discarded된 mel spectrogram사용한다. 이전 타코트론에서 사용된 Griffin-Lim 알고리즘 대신 WaveNet을 사용하여 더욱 Human-like voice 품질을 보여준다.

한글 같은 경우에는 음절 하나가 자음과 모음으로 분해될 수 있고, 여타 언어와 다르게 발음 규칙이 복잡할 수 있다. 본 실험에서의 한국어 최적화 부분에 있어 아직 실험 단계에 있다.

ㅇ ㅏ ㄴ ㄴ ㅕ ㅇ ㅎ ㅏ ㅅ ㅔ 요 → Character Embedding 
      → 3 convolution Layers → Bi-directional LSTM (512 neurons) → encoded features
             → Attention Unit
                → LSTM layer (2 uni-directional layers with 1024 neurons) → Linear Transform → Predicted Spectrogram Frame
       → PostNet (5 Convolutional Layers) → Enhanced Prediction
 
.. and Finally → modified Wavenet

타코트론 2 한국어 오디오 샘플 (11 hrs dataset)

“안녕하세요, 제 이름은 윤진석 입니다.”

“이대로 가을이 찾아오나 싶었는데 다시 북태평양 고기압이 힘을 쓰고 있습니다.“
“고온 건조한 남풍이 불어 오면서 낮부터는 기온이 빠르게 오르겠는데요,“
“전국 대부분 지역에 다시 폭염 특보가 내려졌습니다.“

“이번 역은 홍대입구, 홍대입구역입니다. 내리실 문은 오른쪽이에요.“

“하필이면 자기전에 니가 떠오르는 걸까?“ (스푼 라디오 BJ 원본)

“밤하늘에 빛나는 저 달은, 너를 떠올리게 해.“ (스푼 라디오 BJ 1 hr 데이터셋 학습 결과)

타코트론 + Griffin-Lim, 네이버 TTS API, 구글 클라우드 API 오디오 샘플 비교

Griffin-Lim: “버스는 이미 승객들을 가득 태우고 있었다.“

Naver TTS API: "안녕하세요, 잘 부탁드립니다."

Google Cloud TTS API: "안녕하세요, 제 이름은 윤진석 입니다."

Google Cloud TTS API: "이대로 가을이 찾아오나 싶었는데 다시 북태평양 고기압이 힘을 쓰고 있습니다."