- 개념 : 기존의 뉴럴네트워크에 프리 트레이닝 과정이 더 포함되어 있다고 보면 되는데 프리트레이닝은 보통 언슈퍼바이저 훈련을 통해 이루어짐
- 패턴에 따른 분류
-. Feed-forward network : input -> hidden -> output
-. Recurrent : feedback connection 포함 / 네트워크 dynamic properties 중요 / recurrent neural network
Figure 2. Face detection workflow.
https://machinelearning.apple.com/2017/11/16/face-detection.html
웨이브넷은 기존의 기술보다 더 현실감 있는 사운드를 생성할 수 있는 생생한 오디오 파형을 생성하기 위한 새로운 심층신경망(DNN, deep neural networks)을 이용하여 실제 인간의 목소리를 샘플링 하여 합성 음성을 생성한다. 하지만 당시 모델은 연구 프로토 타입이었고 소비자 제품에서 적용하기에는, 배포하기에는 어려움이 있었다.
컨볼루션 신경망(convolutional neural network) 구조 |
업데이트된 웨이브넷의 기술 수준을 구체적으로 어떻게 향상 시켰는지를 이해하려면 기존의 TTS(text-to-speech) 또는 음성 합성 시스템이 어떻게 작동하는지 이해하는 것이 유용하다. 현재 대부분은 연결된 TTS(concatenative TTS)를 기반으로 하며, 이 TTS는 수 시간에 걸쳐 한 명의 성우로부터 수집한 고품질 녹음의 대용량 데이터베이스를 사용한다.
또한 녹음은 작은 군으로 분할되어 결합되거나 필요에 따라 완전한 발음을 형성할 수 있다. 그러나 이러한 시스템은 부자연스러운 소리를 낼 수 있으며, 감정이나 억양과 같은 일련의 변경이 필요할 때마다 완전히 새로운 데이터베이스를 기록해야하므로 수정할 수 없다.
이런 문제 중 일부를 극복하기 위해 파라 메트릭(통계적 매개 변수 음성 합성, Statistical parametric speech synthesis) TTS로 알려진 대체 모델이 사용되기도 한다. 이것은 컴퓨터 생성 음성을 안내하기 위해 문법 및 입 움직임에 관한 일련의 규칙과 매개 변수를 사용하여 소리를 연결해야 하는 필요성을 없애준다.
'07.AI' 카테고리의 다른 글
딥러닝 - RNN (순환신경망, Recurrent Neural Network) (0) | 2020.07.16 |
---|---|
머신러닝 - 강화학습 - 멀티 에이전트 강화학습(MARL) (0) | 2020.07.16 |
표준 - DIN SPEC 92001:2019 (0) | 2020.07.13 |
표준 (0) | 2020.07.13 |
자연어처리 (NLP) - 워드 임베딩 (구글) (0) | 2020.07.13 |