voicecapsule - lg challengers

50
Voice Capsule September 2019 Issue 1, No.1 Dr . V V o I c e C a p s u l e Joung Ahyeon Lee Jaehee K I m C h a e w o n Kim Hayun 음성합성을 통한 목소리 되찾기

Upload: others

Post on 25-Oct-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: VoiceCapsule - LG CHALLENGERS

Voice Capsule

September 2019 Issue 1, No.1

Dr . V

V o I c e C a p s u l e

J o u n g A h y e o nL e eJ a e h e eK I m C h a e w o nK im H a y u n

음성합성을 통한 목소리 되찾기

Page 2: VoiceCapsule - LG CHALLENGERS

Contents

0201

보이스캡슐 이란? 21

보이스 캡슐 소개 25

보이스 캡슐 작동원리 27

심소희 국내탐방 35

신지 와타나베 해외탐방 37

줄리아 해외탐방 45

김태훈 해외탐방 53

87 보이스캡술 기대효과

89 발전방향-목소리 기부

91 발전방향-구음장애인

Problems 04 71 음성녹음을 위한 문장선별

81 딥러닝-타코트론

Page 3: VoiceCapsule - LG CHALLENGERS

0403

13 잡음에 의한 음성 인식기 성능 저하

05 성대 관련 질병의 심각성

07 음성 장애인들에게상용화되지 않는 기계음

09 기계음의 부자연스러움

11 타코트론과 딥보이스3의 한계점

15 조음 장애와 구음 장애

1Problems

17 오랜시간 녹음해야하는 불편함

Page 4: VoiceCapsule - LG CHALLENGERS

구음 기관의 기능부전이나 의식의 혼탁 없이 뇌의 병적인 변화로 인해발생하는 언어장애이다.

성대 관련질병의 심각성

많은 사람들이 성대결절, 실어증, 두경부암, 루게릭병 등의 후천적

이유로 자신의 목소리를 잃거나 목소리를 제대로 사용할 수 없게

된다. 이런 성대관련 질환들은 치료를 위한 수술 후 아예 목소리

가 나오지 않는 부작용이 생기기도 하고, 환자가 일상에서 목소리

를 사용하는 것과 병행하는 치료 방법이 없는 경우가 많다.

0605

목소리를 남용하거나 무리한 발성 습관으로 인해 성대에 문제가 생긴다. 주로 가수나 서비스직에 종사하는 사람이 많이 걸린다.

성대결절

실어증

운동신경세포만 선 선 선 선 선 선 선 선 선 선 선 선 선 . 선 선선 선 선 선 선 선 선 선 선 선 선 선 선 선 선 선 선 선 선 선 선 선선 선 선 선 선 선 선 선 선 선 선 선 선 .

인두와 후두에 악성종양이 발생하는 것이다. 잦은 음주와 흡연이 그원인이다.

하인두암 &후두암

루게릭병

Page 5: VoiceCapsule - LG CHALLENGERS

20,000:28

음성장애인들에게상용화되지 않는

기계음

0807

미국과 한국의 언어 장애인 수(언어산출 관련)

이 중에서도 후천적 이유로 목소리를 잃는 사람은 총 언어장애인의87.7%(2015년 통계청 기준)로 아주 높은 비율을 차지한다. 이런 사람들은 자신의 목소리를 영영 잃어버릴 수 밖에 없다. 하지만 많은 수의 음성장애인들이 사용할 수 있는 기계음은 매우 적다.

한국에서 사용 가능한 기계음의 수와 언어장애인의 수 비교

사람들이 자주 쓰고 있는 TTS(Text To Speech)를 조사한 결과, 삼성 빅스비 3개, 애플 시리1개, 네이버 파파고 2개, AmazonPolly 1개, 구글 tts 8개, 스마트 acc문자형 어플 13개로 총 28개의 기계음 밖에 없었다.

목소리를 잃은 사람들은 기계음으로 다른 사람과 의사소통을 해야 하지만

사용 가능한 기계음의 수는 매우 적다.

(2012년 NHIS 기준)(2017 통계청 기준)

250만명미국 2만명

한국

언어장애인의 수

기계음의 수

Page 6: VoiceCapsule - LG CHALLENGERS

기계음의부자연스러움

기계음은 인간의 억양을 완벽히 재현해내지 못한다는 점에서 부자연스러움을 만들어낸다. 특히 한국어의 경우, 억양에 따라 그 의미가 완전히 달라지기도 하기 때문에 사람이 말을 함에 있어서 억양이 중요한 역할을 한다.

리듬 단위와 낱말

다음의 예시를 보면 한국어에 있어서 띄어 읽기의 리듬 단위와 억양이 화자와 청자 사이의 대화 이해에 얼마나 큰 영향을 미치는지를 한눈에 알 수 있다.

/아니 너 왜 안 갔어/

1) /아니+너+왜+안+갔어/ (말토막 4개)2) /아니너왜안갔어/ (말토막 1개)3) /아니너+왜안갔어/ (말토막 2개)

말토막의 수를 달리함으로써 인상과 태도를 다르게 전달할 수 있으며, 이는다른 의미를 유발하기도 한다.

현재 개발 중인 음성 합성 기술로 만들어진 기계음으로는 아직 사용자들의기분과 억양을 잘 표현할 수가 없다. 기계음을 통해 타인과 대화를 해야 하는 언어 장애인들의 경우에는 이러한 기계음의 한계에 부딪힐 수 밖에 없는실정이다.

1009

발표자
프레젠테이션 노트
http://s-space.snu.ac.kr/bitstream/10371/85525/1/3.%202237163.pdf 서울대학교 서울말의 리듬과 억양
Page 7: VoiceCapsule - LG CHALLENGERS

구글이 사용하는 딥러닝 음성합성 기술인 타코트론(Tacotron)은 심층 신경망 기반의 합성모델을 학습한다. 문자열을 입력으로, 음성의 스펙트럼 특징벡터 열을 출력으로 지정해 문자열이 스펙트럼으로 변환되는 중간 과정을 자동으로 학습한다. 좋은 음성을 출력하기 위해서 타코트론은 약 20시간 정도의 음성과 텍스트를 학습해야 한다. 음성합성을 상용화하고 보이스캡슐의 서비스를 제공하는데 20시간정도의 개인의 음성이 필요하다는 것이다. 하지만 20시간정도를 개인이 녹음하여 음성데이터를 만드는 것은 매우 불편한 일이다.

예외 발음 규칙이나 긴 문장의 경우 품질음이 떨어지는 타코트론의 단점을보완하기 위해 도입한 딥보이스3(Deep Voice3)는 입력 문자열 이외에도학습 데이터에 존재하지 않는 단어, 외래어 등의 발음 기호열을 추가적으로도입하고 있다. 타코트론과 같이 딥보이스3를 이용하게 될 경우, 2~3 시간정도의 음성데이터만 수집하여도 좋은 음질의 음성을 출력할 수 있게 된다. 하지만 개인이 2시간정도의 2000문장을 녹음하는 것 또한, 사용자 입장에서 부담되는 시간과 문장의 양이기 때문에, 서비스를 이용하는데 불편할 것이다.

1211

타코트론과딥보이스3의

한계점

타코트론을 이용한 음성 녹음

딥보이스3를 이용한 음성 녹음

Page 8: VoiceCapsule - LG CHALLENGERS

잡음에 의한 음성인식기의 성능 저하

1413

사람이 발성한 음성은 음성인식기에 입력되는 도중에 여러 가지 왜곡이 발생한다. 롬바드 효과는 이러한 왜곡요인의 하나로서, 잡음환경의 발화자는 의사 전달을 보다 명확하게 하기 위해 평소의 발성과는 변이가 있는 음성을 발성하는 효과이다. 따라서, 잡음 환경에서의 음성은 조용한 환경에서 음성과같은 단어라도 스펙트럼 구조, 발성음의 세기 등의 음향적인 변이가 있으므로, 음성인식기의 성능을 저하시킨다.

다른 하나의 왜곡 요인으로서 가산잡음에 의한 왜곡이 있다. 사무실, 자동 차, 거리 등에서 발생하는 잡음은 음성과상관관계가 없이 음성에 가산적으로 첨가되는 가산잡음으로 모델링 되며, 음성의 특징 파라미터에 잡음이 가산적으로 첨가되어 특징 파라미터의 동적 변화의 범위를 축소시킨다. 이 밖에도, 화자 고유의 성도 특성, 방안의 반향, 발성 스타일, 마이크과 같은 선형 시스템에 의해 발생하는 왜곡은 음성의 스펙트럼에 잡음의 주파수 응답 특성이 곱해져서 음성의 스펙트럼을 왜곡시킴으로 음성인식기의 성능을 저하시킨다.

음성은 인간의 자연스런 의사소통 수단으로, 이를 인간과 기계간의 인터페이스로 사용하려는 많은 연구가 진행되고있다. 실험실 환경에서 높은 인식률을갖는 음성 인식기는 개발되었으나, 실제 환경에서 적용할 경우에는 여러 난점으로 성능이 크게 저하된다. 이러한난점 중의 하나가 잡음에 의한 음성인식 시스템의 성능 저하이다.

잡음에 의한 음성인식기의 성능 저하는, 인식기를 제작할 때의 음향 환경과 사용할 때의 음향 환경의 불일치로 인해서 발생하는 입력 음성의 변이가 원인이다.

잡음에 의한 음성 인식기의 성능 저하

Page 9: VoiceCapsule - LG CHALLENGERS

조음 장애와구음 장애

1615

구음장애는 중추신경계, 말초신경계, 또는 발성에 관여하는 근육의 손상이나 질환으로 말을 만드는데 결함이 있는 상태이다. 조음기관의 근육 약화 혹은 마비로 인해 호흡, 발성, 공명 등에 영향을 주어 정상적인 말의 속도, 강도, 시간, 정확성에 문제가 나타난다. 뇌손상 후 실어증과 함께 나타나거나혹은 구음장애 자체로 발생할 수 있다. 환자는 입술, 혀 및 인접 부위의 근육이 약화되거나 협응(coordination)이 되지 않아 언어장애가 발생하며, 말을 시작하기 전 입을 우물거리거나 입속에서 혀를 이리저리 움직이면서 말소리를 내기가 어려운 모습을 보이게 된다.

조음장애

구음장애

조음이란 말소리를 만드는 것을 말한다. 말소리를 만드는데 이상이 있을 경우 발음이 불명확하거나 명료도가 떨어지게 된다. 이러한 발음 이상은 구조적인 이상없이 순수하게 발음에 이상이 있는 기능적인 조음장애와 구개파열, 설소대 단축증(tongue tie) 등 구조적인 이상으로 나타나는 조음장애가 있다.

구음장애 유형 구음장애 원인

이완형 하부 운동원성 질환, 중증 근무력증

경직형 양측 상부운동신경원 질환

실조형 소뇌 병변

운동저하형 파킨슨병

운동과다형 무정위형 뇌성마비

발표자
프레젠테이션 노트
한국민족문화대백과 ‘구음기관’ 보건복지부, 대한의학회
Page 10: VoiceCapsule - LG CHALLENGERS

오랜 시간녹음해야 하는

불편함1817

1. 구글이 사용하는 딥러닝 음성합성 기술인 타코트론(Tacotron)은 심층신경망 기반의 합성모델을 학습한다. 문자열을 입력으로, 음성의 스펙트럼특징벡터 열을 출력으로 지정해 문자열이 스펙트럼으로 변환되는 중간 과정을 자동으로 학습한다. 좋은 음성을 출력하기 위해서 타코트론은 약 20시간 정도의 음성과 텍스트를 학습해야 한다. 음성합성을 상용화하고 보이스캡슐의 서비스를 제공하는데 20시간정도의 개인의 음성이 필요하다는것이다. 하지만 20시간정도를 개인이 녹음하여 음성데이터를 만드는 것은매우 불편한 일이다.

2. 예외 발음 규칙이나 긴 문장의 경우 품질음이 떨어지는 타코트론의 단점을 보완하기 위해 도입한 딥보이스3(Deep Voice3)는 입력 문자열 이외에도 학습 데이터에 존재하지 않는 단어, 외래어 등의 발음 기호열을 추가적으로 도입하고 있다. 타코트론과 같이 딥보이스3를 이용하게 될 경우, 2~3 시간 정도의 음성데이터만 수집하여도 좋은 음질의 음성을 출력할 수있게 된다. 하지만 개인이 2시간정도의 2000문장을 녹음하는 것 또한, 사용자 입장에서 부담되는 시간과 문장의 양이기 때문에, 서비스를 이용하는데 불편할 것이다.

발표자
프레젠테이션 노트
http://s-space.snu.ac.kr/bitstream/10371/85525/1/3.%202237163.pdf 서울대학교 서울말의 리듬과 억양
Page 11: VoiceCapsule - LG CHALLENGERS

VOICE

CAPSULE“상처는있어도,상실은없다”

2019

Page 12: VoiceCapsule - LG CHALLENGERS

2221

2Propose Method23 보이스캡슐이란?

25 보이스 캡슐 소개

27 보이스 캡슐 작동원리

29 보이스 캡슐 작동과정

Page 13: VoiceCapsule - LG CHALLENGERS

2421

보이스캡슐이란?

23

Page 14: VoiceCapsule - LG CHALLENGERS

기업명은 Voice Capsule 이다. 목소리 데이터를 저장한다는 기업의 특징을 살리기 위해 “캡슐”이라는 단어를 사용했다. 약물을 보관하는 캡슐처럼목소리를 캡슐 안에 넣어 보관해준다는 것을 의미하는 기업명이다.

기업로고는 Voice의 V와 Capsule의 C가 결합하여 캡슐모양을 형상화 한것이다.

성대결절로 인해 말을 하면 안돼서 꿈을 포기하게 되거나 스트레스나 사고또는 질병으로 인해 후천적으로 말을 못 하게 된 언어장애인을 돕고자 보이스 캡슐을 생각했다. 현재 기계음을 활용하여 후천적 언어장애인을 돕는 방법도 존재 하지만 기계음은 큰 이질감이 들게 될 뿐 아니라 자신 목소리의 개성도 잃게 된다. 또한음성합성 기술이 일상생활에 쓸 수 있을 만큼 상용화되어 있지도 않다. 따라서 자신의 원래 목소리를 사이버 공간에 저장해서 필요할 때 목소리를 사용할 수 있게 하는 방법을 고안했다.

우리의 슬로건은 “상처는 있어도 상실은 없다, voice capsule.” 이다. 목소리를 잃어서 마음의 상처는 받을 수 있으나, 목소리를 되찾아주니 상실을 없다는 의미이다. Voice Capsule은 사회적 기업이다. 큰 이윤을 창출하는 것이 목적이 아니라 목소리 데이터의 관리와 저장을 위해서 설립된 기관이다. 목소리를 잃어버려도 일상생활을 하는 데에는 지장이 없도록, 적은 돈으로 많은 행복을 누릴 수 있도록 하는 것이 Voice Capsule의 목표이다.

데이터 처리기술

음성합성기술

언어음성학

컴퓨터 프로그래밍

딥러닝

기업명 & 기업 로고 의미

기업 설립 동기

슬로건 & 기업 정신

연구분야

보이스캡슐

소개

2625

Page 15: VoiceCapsule - LG CHALLENGERS

2827

음성인식 과정은 입력된 음성에 대해 여러 단계의 처리과정을 거친 후 단어 열로 변환해 출력해 주는 것으로 단순화시킬 수 있다. 음향모델링은 음성이 시간 축에 따라 움직이며 만든 특징 벡터열 x와 어휘 w에 대해p(x|w) 확률을 학습하는 과정이다. 언어모델계산 단계에서는 단어들 간의 결합 확률을 예측하는 일을 한다.

보이스캡슐의작동 원리

음성인식

| STEP1 | 데이터 프로세싱

음성분석

음향모델계산

언어모델계산

디코딩

<음성 인식의 4가지 과정>

음성합성1. 데이터 프로세싱 : 음성 합성 기술을 학습하기 위해서는 텍스트와 음성의 페어가 필요하다. 데이터 프로세싱을 통하여 텍스트와 음성이 잘 어울리도록 할 수 있다. 데이터 프로세싱의 과정은 음성추출, 문장 별 자르기, 텍스트와 음성의 맞춤 3과정을 통해 이루어진다.

2. 딥러닝 : Tacotron 모델을 이용하면 텍스트만 넣으면 토큰화 운율 분석, 검색과 합성의 절차를 생략하고 음성이 바로 나온다. . Tacotron은encoder, decoder, attention, vocoder로 구성되어 있다. Encoder에서 글자를 숫자로 바꿔주고 decoder에서 음성을 만들 수 있는 스펙트로그램을 받아 여러 개의 스펙트로그램을 예측하여 출력한다. Attention에서는 글자를 나타내는 숫자들을 보고 어디에 집중을 할 것인지 계산한다. Vocoder에서는 여러 개의 스펙트로그램을 음성으로 출력한다.

음성 추출문장 별

자르기

텍스트와

음성의 맞춤

자동화

Page 16: VoiceCapsule - LG CHALLENGERS

3029

사용자는 개인의 목소리를 12분 동안 제공된 문장을 말하면서 기록하게 된

다. 사용자가 Voice Capsule을 사용하길 요청할 경우, 말하고 싶은 문장을

타이핑한다. 텍스트를 인식하여 개인의 목소리를 합성한 음성을 출력하게 된

다.

선별된 문장들을 제공하여 사용자들이 사용자 인터페이스를 통해음성을 녹음한다.

구글 speech API를통해 음성과 텍스트를대치하고 음성 인식 과정을 거친다.

인식된 텍스트를 발성하도록 사용자의 목소리를 합성한다.

완성된 음성을출력한다.

사용자가 Voice Capsule을 이용하기 위해 문장을 타이핑한다.

보이스캡슐의작동 과정

사용자의 요청

개인의

목소리수집

데이터 저장및

음성 인식

타이핑 된

문장 인식

개인의

목소리합성

음성

출력

Page 17: VoiceCapsule - LG CHALLENGERS

VOICE

CAPSULE

3231

“상처는있어도,상실은없다”

Page 18: VoiceCapsule - LG CHALLENGERS

3433

3Meet the Experts35 심소희 국내탐방 인터뷰

37 신지 와타나베 해외탐방

45 줄리아 해외탐방

53 김태훈 해외탐방

Page 19: VoiceCapsule - LG CHALLENGERS

Sohee Shim

프라트(Praat)는 말소리의 음성과학적 분석을 위한 컴퓨터용 공개 소프트웨어이다.마이크를 이용하여 모노 및 스테레오로 녹음할 수도 있고, IBM 호환기종에서 사용하는 WAVE(확장자 wav)파일이나 매킨토시에서 사용하는 Audio Interface File Format(확장자 aiff) 파일을 불러서 사용할 수도 있다.또한 이 프로그램은 조음합성을 포함하는음성합성을 지원한다.

3635

Professor of Ewha Womans University

Page 20: VoiceCapsule - LG CHALLENGERS

구글 speech API와 타코트론(tacotron)을 이용하여 이 연구를 진행

하려고 합니다. 구글 speech API를 통해 문장과 음성데이터를 대치시

키고 타코트론을 이용해 음성데이터를 학습시켜 음성을 합성하려고 하

는데 괜찮을까요? 이보다 더 나은 방법이 있을까요?

구글 speech api는 블랙박스처럼 뭐가 일어났는지는 알지 못한다. 우

리는 어떤 음성이 어떤 텍스트로 변환되는지 알고 싶어한다. 하지만 음

성 정보는 텍스트의 정보만 가지는 것이 아니라, 발화자의 정보, 어투,

감정 등의 정보가 들어간다. Speech api만 사용하면 우리는 텍스트

데이터만 접근할 수 있기 때문에 아마 음성 인식 시스템을 직접 만드는

것이 좋을 수도 있다. 이미 오픈소스는 많고 직접 음성 분석 시스템을

만드는 데에 도움이 된다. 음성 정보는 대체로 임베딩 시스템으로 저장

할 수 있다. 그 후 텍스트 정보와 함께 타코트론에 넣어 음성 정보와 텍

스트를 모두 컨트롤할 수 있다. 대체로 이 방법론은 이 복잡한 파형 신

호를 어떻게 푸는지에 관해 딥러닝에서 꽤 유명하다. 이것은 언어적 컨

텐츠, 화자 정보, 화법, 환경 데이터, 감정 등의 정보를 가지고 있다. 이

종류들이 파형으로 인코딩되는 것이다. 음성 인식은 텍스트 추출에만

사용된다. 하지만 우리가 위의 각 요소에 의미를 부여하는 복잡한 조합

을 모두 풀어야한다. 그 후 음성 변환, 혹은 같은 내용과 화자의 다른 감

정을 출력할 때, 감정 벡터라는 컴포넌트를 변경하면 되는 것이다. 이는

음성 뿐만 아닌 딥러닝에서 많이 다루어지고 있다. 우리는 시그널이 있

고 의미를 가진 컴포넌트의 벡터를 풀고 음성을 생성 또는 변환하면 되

는 것이다.

Q

A

ShinjiWatanabe

ASSOCIATE RESEARCH PROFESSOR at Johns Hopkins University

신지 와타나베 교수는 일본 도쿄의 와세다 대학에서 이론물리학 학사 및 석사학위, 그리고 공학 박사학위를 받았다. 그의 연구는 음성 향상, 소스 분리, 마이크 배열, 스피커 적응, 음성 인식을 위한 스피커 클러스터링, 음성 변환, 구어 이해 및 구어 대화 시스템을 포함하는 구어 처리 영역에 초점을 맞추고 있다. 그는 저널과 컨퍼런스에 200개 이상의 논문을 발표했으며, 2003년IEICE로부터 최우수 논문상을 포함한 여러 개의 상을 받았다. 오디오 음성 및언어 처리에 관한 IEEE Transactions의 부편집장을 역임했으며, IEEE 신호 처리 사회 음성 및 언어 기술 위원회(SLTC)와 신호 처리 기술 위원회(MLSP)를 포함한 여러 기술 위원회의 회원이다. 특히, 그가 제출한 “LSTM재생신경망과 소음 방지 ASR의 활용을 통한 음성향상”이라는 논문을 통해 알게 되었다. 이와 관련되어 음성 인식 및 향상과 딥러닝에 대한 그의 연구와Voice Capsule에 대한 그의 조언을 듣고자 인터뷰를 요청했다. 또, 공대로유명한 존스 홉킨스 대학을 탐방하게 되었다.

Interview

3837 출처: Shinji’s Webpage https://sites.google.com/view/shinjiwatanabe

Page 21: VoiceCapsule - LG CHALLENGERS

Q

A

잡음을 없애는 기술로 LSTM을 연구하셨다고 들었습니다. 만약

사용자가 음성합성을 위해 음성을 녹음하는 과정에서 잡음이 섞

였다면, 이 기술을 사용하여 음성 합성에 도움이 되게끔 만들 수

있을 까요?

이 분야는 내가 전문적으로 연구했다. 보통 노이즈가 섞인 음성

데이터와 이에 상응하는,잡음이 없는 깨끗한 음성데이터를 준비

해 LSTM이 노이즈에서 깨끗한 데이터로 변환하도록 한다. 이

는 음성 향상이라고 부른다. 하지만 이 기술은 상황의 영향을 많

이 받는다. 그저 들리기에 더 나은 정도로 변환하는 경우 이 기술

은 중요한 역할을 한다. 하지만 이 기술을 음성 인식, 구글

speech api 이전에 사용한다면, 이 기술들도 그 자체 안에서 왜

곡이 일어날 수 있다. 심지어는 기존보다 더 안 좋은 출력을 할

수 있다. 또한 이 조합이 항상 작동하는 것이 아니다. 그래서 음

성 인식과 노이즈의 tuning을 합치는 것에는 어려움이 있다. 이

러한 결과는 single channel cases에 해당한다. 여러 대의 마

이크를 사용하는 경우와 같이 Multi-channel을 가지고 있다면,

음성 향상은 더 강력하게 작동한다. 이 기술들은 아마존

(Amazon)의 Alexa, 구글의 google home등에 사용되는 것

으로 알고 있다.

Interview

4039

Page 22: VoiceCapsule - LG CHALLENGERS

Q

A

개개인의 목소리를 수집하고 처리하는 것과 관련해서 우리의 프

로젝트와 관련된 조언을 해 주실 수 있을까요?

딥러닝 기반의 음성 변환 기술에 대해 집중적으로 연구하길 추

천한다. 하지만 동시에 더 빠른 시일 내에 프로그램을 만들고 싶

다면, 스펙트럼 분석 기술(노래방 – pitch변경)처럼 signal

processing 기술을 사용해도 된다. 연구 목적이라면, 딥러닝

기반의 음성 변환 기술에 집중하라.

사용자들이 녹음을 할 때, 그들의 집(전문적인 장비가 없는 장

소)에서 녹음을 하는 것이 나을까요, 노이즈가 존재하지 않는

스튜디오에서 녹음을 하는 것이 나을까요?

노이즈가 없는 환경이 낫다. Enhancement 기술이 완벽하

지 않기 때문에 컨트롤이 가능하다면 사용자들이 전문적인 환

경에서 녹음을 하도록 해라. 너네 팀이 음성 향상 기술이 더

많아지고 시스템을 구축할 단계가 되면, 현실적인 환경에서

작은 노이즈가 있더라도 괜찮을 것이다. 음성 인식, 음성 변환

같은 기술들은 아주 작은 노이즈에도 매우 예민하다. 초기의

단계에서는 스튜디오같은 깨끗한 환경이 좋을 것이다.

Q

A

Interview

4241

Page 23: VoiceCapsule - LG CHALLENGERS

위는 구글의 북미 영어와 중국어 TTS 시스

템이 구축된 것과 동일한 단일 스피커 음성

데이터베이스를 사용한 TTS 관련 실험이다.

베이스라인과 WaveNet을 모두 훈련시키기

위해 동일한 데이터셋과 언어적 기능이 사용

되었기 때문에, 이러한 음성 합성기는 공정하

게 비교할 수 있었다 . TTS에 대한

WaveNet의 성능을 평가하기 위해 주관적

인 대응 비교 테스트와 MOS(평균 의견 점

수 ) 시험이 수행되었다 . 결과로부터

WaveNet이 두 언어 모두에서 기준 통계 파

라메트릭과 일치 음성 합성기를 능가했다는

것을 알 수 있다. WaveNet은 이전의 기술

을 현저히 개선하여 자연어와 최상의 이전 모

델 간의 차이를 50% 이상 줄이며 주관적 자

연스러움에서 현재 최고의 TTS 시스템을 능

가하는 샘플을 생성했다. 때때로 문장에서 잘

못된 단어를 강조함으로써 부자연스러운 운

율을 가지고 있었지만, 언어적 특징에 따라

조건화된 WaveNet이 자연스러운 부분적인

음질로 음성 샘플을 합성할 수 있다는 것을

발견했다.

음성 합성 또는 TTS (텍스트 음성 변환)는 여전히 한 화자의 짧은 음성 조각 데이

터베이스가 단일에서 기록된 후 다시 결합하여 출력하는 소위 연결 TTS를 기반

으로 한다. 이로 인해 완전히 새로운 데이터베이스를 기록하지 않고 음성을 수정

하기가 어렵다. 다른 스피커로 전환하거나 음성의 강조 또는 감정 변화 등이 그 예

시이다. WaveNet은 다른 TTS시스템보다 자연스러운 소리를 생성한다. 음절,

음소, 단어에 인간과 매우 비슷한 강세와 어조를 사용하여 음성을 합성한다. 평균

적으로 WaveNet은 사람들이 다른 TTS기술보다 선호하는 음성 오디오를 생성

한다. 다른 대부분의 TTS 시스템과 달리 WaveNet 모델은 처음부터 원시 오디

오 파형을 만든다. 이 모델은 다량의 음성 샘플을 사용하여 학습된 신경망을 사용

한다. 네트워크는 학습 단계에서 서로 이어지는 톤과 현실적인 음성 파형의 모양

과 같은 음성의 기본 구조를 추출한다. 텍스트 입력이 제공되면 학습된 WaveNet

모델이 해당하는 음성 파형을 처음부터 생성할 수 있다. 한 번에 하나의 샘플을 초

당 최대 24,000개까지 생성하며, 개별 사운드 간에 원활한 전환을 지원한다.

WaveNet

WaveNet

4443표 출처: WAVENET: A GENERATIVE MODEL FOR RAW AUDIO, 2016, Google Deepmind

Page 24: VoiceCapsule - LG CHALLENGERS

Julia Hirschberg

Professor of Columbia University Department of Computer Science

음성 변환

순환신경망을 이용한 음성 매핑

신경망은 음성을 대체로 화자가 의도한대로 인식하지만 때로는 화자의 의도와 다른 그저 비슷한 단어로 인식하기도 한다. 신경망이 화자의 음성을 여러가지 단어로 인식했다면 각각의 단어를 모두 정리해야한다. 신경망이 인식한 각 단어를 음소 및 음절로 끊어서 나열한 다음, 반복되는 모든 문자를 하나의 문자로 대체하는 작업을 거친다. 그 후모든 공백을 제거하여 발음을 나열한 것이 아닌 단어를 만들어낸다.

4645

발표자
프레젠테이션 노트
https://medium.com/@jongdae.lim/%EA%B8%B0%EA%B3%84-%ED%95%99%EC%8A%B5-machine-learning-%EC%9D%80-%EC%A6%90%EA%B2%81%EB%8B%A4-part-6-eb0ed6b0ed1d
Page 25: VoiceCapsule - LG CHALLENGERS

음성변환의 활용 사례

음성을 인식하고 변환하는 일은 실제 개발되어 상용화되어가고 있다.

발음이 정확하지 않은 구음 장애인이 마이크에 이야기를 하면 순환 신경망을 통한 음성 매핑 과정을 거쳐 음성 변환이 이루어진다. 부정확한 발음때문에 신경망이 해당 발음을 여러가지 단어로 인식하지만 이미 많은 학습을 거친 신경망은 해당 발음을 의도한대로 인지할 가능성이 높다. 현재기술로 구음 장애인의 목소리를 재현하여 정확한 발음의 음성을 재제공하는 것은 아직 이루어지지 않고 있지만, 신경망이 최종적으로 인지한 단어를 기계음을 통해 재제공하는 작업은 충분히 이루어지고 있다.

아이폰의 siri 또한 유사한 기술을 제공한다. 사전에 사용자의 스마트폰에사용자(본인)의 이름을 타이핑해두고, siri에게 “내 이름 말하는 법을 배워.”라고 이야기하면 siri는 사용자가 본인의 이름을 본보기 삼아 읽어 주기를 요구한다. 순환 신경망을 통한 음성 매핑 과정을 통해 siri는 사용자가 읽은 이름을 여러가지 단어로 인지한다. Siri는 스스로가 인지한 여러가지 단어를 siri의 음성으로 모두 합성한다. 사용자의 이름을 일반적인단어처럼 siri의 신경망이 사전에 학습할 수는 없는 것이기 때문에 siri는유추한 모든 단어를 합성하게 되는 것이다. 따라서 사용자가 직접 이름과매칭되는 음성을 선택할 수 있고, siri는 사용자의 이름을 읽을 수 있게 된다.

4847

Page 26: VoiceCapsule - LG CHALLENGERS

Q

A

SuwonShon

Massachusetts Institute of Technology

음성 신호 처리를 위한 기계 학습 기술 연구, 화자 및 언어 인식 및 관련 전처리 기술 연구, 개인 신원을 분석하기 위해 방언 인식 알고리즘에 대한 연구를 하셨다. 현재는 자동 음성 인식과 같이 실제 음성 콘텐츠를 처리하는데 따르는 문제 중 하나인 언어와 방언사이의 관계에 대해서 중점적으로 연구를 하고 계신다. 방언이 녹음에 사용중인 언어를 식별하는 데 유용한 기능이라는 박사님의 연구들이 보이스캡슐의 사용자 중 어눌한 발음을 가진 사람들의 음성인식과 합성에 도움이 될 것 같고, 딥러닝 기술을 활용한 음성합성 기술에 대해서 많이 배울 수 있을 것 같아서 박사님과의 인터뷰를 진행하게 되었다.

Interview

Q

A

tacotron을 사용한 딥러닝 기술을 이용하여 20시간 정도의 음성 녹음 데이터를 학습시키면, 추후에는 2-3시간 정도의 음성녹음 데이터만으로도 매끄러운 음성합성을 하는 것이 가능한가요?

딥러닝 기술을 이용하지 않고 음소별로 구간을 다 자른 다음 이어 붙이는 방법을 사용하면 적은 시간으로 더 좋은 음질을 만들 수 있습니다. 딥러닝 기술은 구글을 제외하고 거의 사용하지 않기때문에 이런방법도 고려를 해보시면 좋을 것 같습니다. 딥러닝 기술을 사용할 때필요한 음성 데이터의 양을 알기 위해서 음성 데이터의 시간을 12분씩 늘려가며 해봤는데 24분정도로 해보니까 대용량 데이터를 사용한것과 같은 결과가 나온 논문이 있습니다. 따라서 딥러닝 기술을 사용할 것이라면 이와 같은 결과를 참고하여 너무 많은 데이터 양에 연연하지 않아도 될 것 같습니다.

어눌하게 말하는 사람의 고유 목소리로 발음만 교정되어 말을 하게

하는 방법이 있을까요?

아직 그런 교정 기술은 완벽하게 개발되지 않은 상태입니다. 하지만

저의 개인적인 생각으로는 음성인식 기술을 사용해서 어느 부분을 잘

못발음 한지 인식하게 하고 , 제대로 된 음소를 찾아서 교정시킨 다음

이것으로 모델을 훈련시키는 방법을 사용하면 가능할 것 같습니다.

5049

Page 27: VoiceCapsule - LG CHALLENGERS

발음 교정 파트와딥러닝에 대한 조언

어눌하게 말하는 사람의 고유 목소리로발음만 교정되어 말을 하게 하는 방법 제시

음성인식 기술을 사용해서 프로그램이 사용자가 어느부분을 잘못 발음한지 인식하게 함

1

제대로 된 음소를 찾아서 잘못 발음된 부분을 교정2

교정된 부분들을 추가하여 프로그램을 훈련3

딥러닝 기술과 음소 별 구간을 자르는두 음성합성 기술의 비교

딥러닝 기술음소 별 구간자르는 기술

장점

톤, 악센트를 자동으로만들어준다

단조롭지 않다

자연스럽다

시간이 적게 든다

음질이 더 좋다

단점

다른 기술보다 음성 데이터가 많이 필요하다

악센트를 자동으로 조정해주지 않아 단조로울 수있다

“딥러닝을 바로 공부하기 보단 일반적인 머신러닝, 패턴부터 공부해야 합니다. 또한 전자과 학문인 확률, 선형대수, 패턴인식에 대한 공부가 중요하고 코딩은 수단일 뿐입니다. 수학적인 지식이 중요한 연구분야라고 할 수 있습니다.”

5251

Page 28: VoiceCapsule - LG CHALLENGERS

TaehoonKim

Open AI Engineer

오픈에이아이(Open AI)의 임무는 인공지능이 인간을 능가하는자율적인 시스템을 통해 전체 인류에 걸쳐 혜택을 제공하는 것이다. 오픈에이아이에 근무 중인 김태훈 엔지니어는 개인의 목소리로 음성합성을 하는 오픈소스코드를 제공하고 있다. 손석희, 문재인의 목소리로 딥러닝한다음, 자신이 하고 싶은 말을 그들의 목소리로 출력하는 소스코드를 공개해 한국말로 딥러닝 하는 방법을제공하고 있다.

탐방 목적

김태훈 엔지니어가 공개한 오픈소스코드를 같이 실행해본다.

음성 합성 모델의 발전 가능성과 방향에 대해 토론한다.

우리의 프로젝트에 어떤 기술이 필요한지 자문을 구한다.

5453

Page 29: VoiceCapsule - LG CHALLENGERS

Interview

Q

A

음성합성 소스코드를 짜는 전체과정에 대해서 간략히설명해 주실 수 있나요? 예를 들면, 코드를 짜게 된 동기 라든가, 짜는데 어느정도 걸렸는지에 대한 것이요.

저는 음성 합성에 원래 관심이있었던 것은 아닙니다. 제가 개발 할때 쯤에 음성 합성에 대한딥러닝이 떠오르는 추세라서 저도 한번 따라해 봤어요. 저는 일단 리눅스를 사용하여 맥에서 개발했어요. 근데 윈도우도 명령어만 바꿔서잘 사용하면 코드는 잘 따라하실수 있으실거에요. 코드를 짜는건한달 정도 걸렸어요. 음성 합성딥러닝을 위한 데이터를 찾는게좀 어려워서 누구를 해야할지 고민을 하다가, 인터넷상에 동영상이 많이 올라오는 손석희 아나운서와 문재인 대통령의 목소리를하기로 결정했어요. 예를 들어손석희 아나운서의 음성데이터를 가져올 때는, JTBC 사이트에 들어가서 손석희 아나운서의음성과 그 음성에 대치되는 텍스트를 모두 다운로드 받았어요. 그렇게 해서 총 2시간 정도의음성인 2000문장을 학습시키게 되었죠. 딥러닝을 하는데에는좋은 GPU를 가진 컴퓨터면 24시간 정도 돌리시면 될 거예요.

5655

Page 30: VoiceCapsule - LG CHALLENGERS

저희의 Voice Capsule을 개발하고 상용화 시키는 데에 어떤 점을보완해야 하고, 어떤 기술을 사용해야 할지 조언해 주실 수 있나요?

음성 파일과 텍스트의 대치에 사용되는 구글 스피치 에피아이(google speech API) 와 딥러닝 모델을 학습하는데 사용되는 텐서플로(Tensorflow)가 프로젝트에 유용하게 쓰일 것 같아요. 또한 학습을 위한 음성 데이터를 수집하는 데에 제가 했던 것처럼 소음이 없는 균등한 음질을 수집하는게 좋겠네요. 제가 쓴 오픈소스 코드가 벌써 2년전이기때문에 그 사이에 기술은 또 발전되었어요. 제 코드 말고 다른 사람들의 코드도 참고하며 새로운 코드를 만드는 것이 좋을것 같아요.

Q

A

5857

Page 31: VoiceCapsule - LG CHALLENGERS

오픈소스 속 FFmpeg

FFmpeg은 디지털 음성스트림과 영상 스트림에 대해서 다양한 종류의 형태로기록하고 변환하는 컴퓨터프로그램이다. FFmpeg은명령어를 직접 입력하는 방식으로 동작하며 여러가지자유 소프트웨어와 오픈 소스 라이브러리로 구성되어있다. FFmpeg은 리눅스기반으로 개발되었지만, 애플, 윈도, 아미가OS 등 대부분의 운영 체제에서 컴파일이 가능하다.

FFmpeg란?

음성과 텍스트를 다운로드 한다. >>python3 -m datasets.son.download

모든 오디오를 소리가 없는 부분을 기준으로 자른다.>>python3 -m audio.silence --audio_pattern"./datasets/son/audio/*.wav" --method=pydub

Google speech API를 이용하여 음성에 맞는 텍스트를 예측한다. >>python3 -m recognition.google --audio_pattern"./datasets/son/audio/*.*.wav“

원래 텍스트와 예측한 텍스트를 대조하여 데이터셋에 저장한다. >>python3 -m recognition.alignment --recognition_path"./datasets/son/recognition.json" --score_threshold=0.5

딥러닝에 사용될 numpy 파일을 만든다. >>python3 -m datasets.generate_data ./datasets/son/alignment.json

FFmpeg는 코드에서 영상과 음성의 처리를 맡는다. 김태훈의코드에서 2-2 한국어 데이터셋을 생성하는데에 사용된다. 본격적으로 딥러닝을 하기 전에 학습에 사용 될 음성과 텍스트 자료 준비에 FFmpeg가 사용되는 것이다.

코드에서 어떻게 사용되는가?

6059

Page 32: VoiceCapsule - LG CHALLENGERS

오픈소스 속TensorFlow

TensorFlow란?

코드에서 어떻게 사용되는가?

텐서플로(TensorFlow)는 다양한 작업에대해 데이터 흐름 프로그래밍을 위한 오픈소스 소프트웨어 라이브러리이다. 심볼릭 수학 라이브러리이자, 뉴럴 네트워크같은 기계학습 응용프로그램에도 사용된다. 이것은 구글내 연구와 제품개발을 위한 목적으로 구글 브레인팀이 만들었고 2015년 11월 9일 아파치 2.0 오픈소스 라이센스로 공개되었다.

Single-speaker 모델을 학습한다. >>python3 train.py –data_path=datasets/son

Multi-speaker 모델을 학습한다. >>python3 train.py --data_path=datasets/son1,datasets/son2

첫 영상부터 다시 학습을 반복한다. >>python3 train.py --data_path=datasets/son --load_pathlogs/son-20171015

나의 모델을 만들어 학습한다. >>python3 app.py –load_path logs/son-20171015 –num_speakers=1

내가 원하는 문장으로 음성 출력한다. >>python3 synthesizer.py –load_path logs/son-20171015 –text “보이스캡슐입니다."

TensorFlow는 코드에서 딥러닝을 담당한다. 김태훈의 코드에서 3모델을 학습하는 것과 4음성을 합성하여 출력하는 것에 쓰인다. 이때Multi-Speaker모델도 함께 쓰이게 되는데, 이는 학습에 필요한 음성의 시간을 줄여주는 역할을 한다.

6261

Page 33: VoiceCapsule - LG CHALLENGERS

Multi-Speaker Tacotron란?

multi-speaker-tacotron 은 음성합성(TTS)을 위한 딥러닝 오픈모델인 tacotron 과 deepvoice 를 결합한 것이다. 적은 양의 음성과텍스트로 딥러닝을 통해 음성을 합성할 수 있다.

작업을 위한 가상 Python 환경을 생성한다.>>source /APP/DeepLn/profile.d/python36.sh

Multi-speaker-tacotron 소스를 다운로드 받는다.>>git clone https://github.com/carpedm20/multi-speaker-tacotron-tensorflow.git

가상환경을 적용한다.>>source tf-tacotron/bin/activate

Multi-speaker-tacotron 에 필요한 패키지를 설치 한다.>>pip install -r requirements.txt

Tensorflow 1.3.0 버전을 설치한다.>>$ pip install tensorflow-gpu==1.3.0

오픈소스 속Multi Speaker

6463

Multi-Speaker Tacotron 설치

음성& 텍스트 대치JTBC 홈페이지에서 뉴스룸의 앵커브리핑 영상과 음성원본파일을 다운받는다.>>python -m datasets.jtbc.download

분할된 wav 음성 파일을 구글의 STT(음성인식) API 를 통해 음성파일에 대한text 를 추출한다.>>python -m recognition.google –audio_pattern“./datasets/jtbc/audio/*.*.wav”

구글 STT API 의 경우 정확도가 낮기 때문에 방송 대본을 비교해서 일정score 이상의 내용만 선별한다.

>>python -m recognition.alignment –recognition_path“./datasets/jtbc/recognition.json” –score_threshold=0.5

Page 34: VoiceCapsule - LG CHALLENGERS

학습

6665

학습 데이터 셋을 생성한다.>>python3 -m datasets.generate_data ./datasets/son/alignment.json

Download 5단계 내용을 수행한다.>>rm -f ./datasets/son/data/*.0000.npz

학습을 수행한다.>> python3 train.py –data_path ./datasets/son

학습후, 음성 합성 하는 모습

오픈소스 속Multi Speaker

Page 35: VoiceCapsule - LG CHALLENGERS

VOICE

CAPSULE“상처는있어도,상실은없다”

6867

Page 36: VoiceCapsule - LG CHALLENGERS

81 딥러닝-타코트론

71 음성녹음을 위한 문장선별

75 목소리 수집-잡음

77 목소리 수집-시간

79 음성과 문장의 대치

4Realization plan

7069

Page 37: VoiceCapsule - LG CHALLENGERS

보이스 캡슐 사용자의 음성데이터를 효율적으로 수집하기 위해서는 녹음할 문장을 선별하는 과정이 중요하다.

음성 녹음을 위한문장 선별(1)

사용자에게 제공할 선별된 문장의 가장 중요한 특징

모든 합성단위가

포함되어야한다.

1

합성 단위란 음성 합성을 수행할 때 접합되는 최소의 단위 요소를 말하는 것이다. 어떤 임의의 문장을 녹음한 파형이 있을때, 이 녹음 파형의 일부분인음소, 음절 등이 그 예시이다. 합성 단위를 같은 길이 별 음성파형으로 작게 나누어 두었다가 합성을 수행할 때 이를 연쇄적으로 접합 시켜 완성된 파형을 만들어 내게 된다.

7271

Page 38: VoiceCapsule - LG CHALLENGERS

음성 녹음을 위한문장 선별(2)

다양한운율이반영되어야 한다.

2

가능한선택문장의크기가작아야한다

3

다양한 운율이 반영되어있는 문장을 사용하면 적은 문장으로도 많은 결과값을 출력할 수 있다. 예를 들어 kt에서기가지니에 사용하는 대본을 보면 “와이키키 해변과 훌라 댄스로 유명한 서핑의 섬 하와이에 많은 관광객들이 몰리고 있다”, “그들은 거센 파도 속에서허우적거리는 선수들을 보면서 어떻게해야 좋을지 몰랐다”, “동야휘집에는호랑이를 감동시킨 효부 이야기를 비롯한 많은 야담들이 들어있다” 등이 있다.

선택문장의 크기가 작아야 한다는 것은현실적으로 합성 시스템을 제작할 때DB사이즈를 고려하여 최소한의 용량으로 최대의 효과를 나타낼 수 있게 문장 크기를 최적화시키자는 의미이다.

위의 1,2,3 번의 방법들을 사용한다면 모든 합성 단위를 포함하는 최소한의 문장으로 말묶음(corpus)을 구성할 수 있기 때문에 DB크기를 최적화 시키기에 적합하다. 또한, 많은 빈도를 보이는 합성 단위일수록 출현 횟수가 높아지기 때문에 그 만큼 다양한 운율을 만들어 내기가 용이 하다.

7473

보이스 캡슐 사용자의 음성데이터를 효율적으로 수집하기 위해서는 녹음할 문장을 선별하는 과정이 중요하다.

Page 39: VoiceCapsule - LG CHALLENGERS

목소리 수집-잡음

사용자의 목소리를 효과적, 효율적으로 수집한다.

1. 초기 단계

잡음이 많은 데이터를 가진 음성들에 대한 몇 번의 학습은 도전적인 연구문제로 남아 있다. 아직 실제 환경에서 음성 인식기를 사용하기엔 음향환경의 불일치로 인한 왜곡이 생긴다. 발화자의 발성함에 있어서 음향적인 변이와 가산잡음으로 인한 성능 저하로 인해 실험실 환경에서의 높은인식률에 의존할 수밖에 없다. 현재로서는 LSTM과 같은 음성 향상 기술은 현재의 수준에서는 음성합성 이전에 사용될 경우, 충돌이 일어날 경우가 있다. 음성 합성, 변환 기술들은 아주 작은 노이즈에도 예민한 반응을띤다. 이에 따라 Voice Capsule의 첫 실현 단계에서는 스튜디오의 조용한 환경에서 녹음이 진행될 것이다. 여러 대의 마이크를 사용해 Multi-channel을 가지고 있다면 더 강력하게 작동하기 때문에 다양한 시도를통한 최적의 환경을 찾을 것이다.

2. 음성 향상 기술 도입 이후

더 많은 사용자들이 사용할 수 있게 평소의 잡음이 섞인 환경에서도 녹음을 가능하게 한다. 현재 KT의 ‘내 목소리 동화’에서 사용되는 P-TTS 기술도 사용자들이 휴대폰으로 간단한 음성합성 과정을 거치지만 아직 많은보급화가 이루어지지 않고 있다. 하지만 이를 통해 소음이 있는 조건의녹음도 자연스러운 음성 합성의 결과물을 도출해낼 수 있다는 가능성을발견해 더욱 활발한 연구가 이루어질 것으로 보인다.

7675

Page 40: VoiceCapsule - LG CHALLENGERS

목소리 수집-시간

최근 몇 년 동안 많은 문헌이 대량의 데이터셋을 사용하여 모델을 훈련시켜 추론에 사용되는 입력-출력 매핑을 학습한다. 이와는 대조적으로, few-shot 메타 학습은 적응이라는 추가적인 단계를 도입한다. 이러한메타 학습 환경에서 훈련의 목적은 선행 학습이 된다. 적응하는 동안, 이선행은 새로운 기술을 빠르게 배우기 위해 적은 데이터와 결합된다. 이 경우, 새로운 스피커의 음성 스타일에 적응한다. 마지막으로, 새로운 기술이전개되는데, 이를 추론이라고 언급하고 있다. 참조한 논문에서는WaveNet 확장자를 제시하여 몇 개의 음성을 조정한다. 2개의 데이터셋을 이용하여 few-shot 모델 성능을 평가한다. 첫번째는 LibriSpeech시험 말뭉치를 이용했는데 스피커당 평균 52개의 발언과 5분간의 오디오로 적응의 과정을 거쳤다. 두번째는 21명의 미국 영어권 스피커로 구성된CSTR VCTK 말뭉치의 서브셋을 고려하며, 연설자당 약 368개의 발언과 12분간의 오디오를 포함했다. 또한 시험을 위해 스피커당 10개의 발언과 함께 적응 과정을 거쳤다. 겨우 몇 분간의 데이터로 적응할 때, 이 모델은 자연스러움에서 최첨단 성능과 일치했다. 게다가, 그것은 새로운 화자의 목소리에 어울리는 최근의 다른 모델들보다 더 뛰어나다. 또한 생성된 샘플이 실제 발언과 유사한 수준의 음성을 달성했다는 것을 증명했다.

이 연구에 따라 처음 계획했던 Voice Capsule의 2시간 녹음 대신, 특정학습 모델에 적용된 10여분의 녹음만으로도 합성이 가능하도록 하는 것이 목표이다. 앞서 언급한 KT 의 ‘내 목소리 동화’의 사용법에도 30분 가량의 녹음시간을 요구했다. 앞으로의 연구는 더 적은 시간으로 데이터를학습 및 적응시켜 한국어에도 적합한 모델을 만들어야 할 것이다.

7877

사용자의 목소리를 효과적, 효율적으로 수집한다.

Page 41: VoiceCapsule - LG CHALLENGERS

음성과 문장의대치

딥러닝을 하기위해서 학습에 필요한 자료를 준비해야 한다. 음성과 문장을 대치하여 억양과 말투를 파악하여야 한다.

1

2

3

음성인식

텍스트변환

머신러닝활용

사용하기 간편한 API로 강력한 신경망 모델을적용하는 Google Cloud Speech-to-Text를 사용하면 개발자가 오디오를 텍스트로 변환할 수 있다. 이 API는 120개 이상의 언어와 방언을 인식해 글로벌 사용자층을 지원한다.

Cloud Speech-to-Text를 사용하면 특정발언에서 어떤 언어가 사용되었는지 확인할 수있다. 또한 파일로 저장된 오디오에서 인식된텍스트도 반환하기 때문에 사용자에게 받은 음성 파일을 분석하기 좋다.

Google Cloud를 이용하면 최첨단 딥 러닝 신경망 알고리즘을 오디오에 적용하여 독보적인정확도로 음성을 인식한다. 또한 사전 빌드된여러 음성 인식 모델과 함께 제공되므로 사용사례에 맞게 최적화할 수 있다.

8079

Page 42: VoiceCapsule - LG CHALLENGERS

자동으로 학습하면서, 입력과 출력의 길이의 차이가 발생하는데, 어텐션(Attention)이라는 신경망 층을 도입해 입력과 출력 사이의 매핑(Mapping) 관계를 학습한다. Tacotron은 encoder, decoder, attention, vocoder로 구성되어 있다. Encoder에서 글자를 숫자로 바꿔주고 decoder에서 음성을 만들수 있는 스펙트로그램을 받아 여러 개의 스펙트로그램을 예측하여 출력한다. Attention에서는 글자를 나타내는 숫자들을 보고 어디에 집중을 할 것인지 계산한다. Vocoder에서는 여러 개의 스펙트로그램을 음성으로 출력한다.

딥러닝-타코트론

타코트론을 이용하여 문자열을 입력으로, 음성의 스펙트럼 특징벡터 열을 출력으로 지정해 문자열이 스펙트럼으로 변환되는 중간 과정을 자동으로 학습한다.

8281

Page 43: VoiceCapsule - LG CHALLENGERS

VOICE

CAPSULE

8483

“상처는있어도,상실은없다”

Page 44: VoiceCapsule - LG CHALLENGERS

87 보이스캡슐 기대효과

89 발전방향-목소리 기부

91 발전방향-구음장애인

93 보이스캡슐의 의의

5Final Suggestion

8685

Page 45: VoiceCapsule - LG CHALLENGERS

보이스캡슐기대효과

| POINT1 | 다른 사람과의 소통

사고나 병으로 목소리를 잃어 마음의 상처를 얻고, 다른 사람과 소통의 기능을 잃는 사람이 많다. Voice Capsule은 사고나 병으로자신의 목소리를 잃게 되는 사람들이 겪게 되는 정신적인 충격과 절망감을 감소시키며, 주변인과의 소통을 돕는다. 내가 Voice Capsule에 하고 싶은 말을 치면 내 목소리로 글을 읽어 주기 때문에 다른 사람이 느끼기에도, 본인이 느끼기에도 불편함이 전혀 없이의사소통이 가능하다.

| POINT2 | 나의 목소리로 소통

기존 기계음을 사용하면 이질감이 들기 때문에 의사소통이 잘 되지 않고 원활한대화를 나누고 있다는 느낌이 들지 않는다. 하지만 Voice Capsule은 본인의 목소리를 사용함으로써 줄여준다. 더불어 대화하는 상대방에게도 친숙한 느낌을 전달할 수 있다. 또한 아직 정확하지 못한 음성시스템이 청자들에게 혼란을 주는 점을 개선한다.

“정신적으로 충격을 받아서 성대에 문제가 생긴 적이 있다. 그 때 당시에는 다시는 노래를 못하지 않나 절망이었다. 내 인생이 아무 의미 없는 인생처럼 느껴졌을 정도로힘든 시기가 있었다. 충격으로 성대가 변형되고 경련이일어나는 상태를 앓은 그녀는 여기에 무려 2년간 실어증까지 앓았다. 그런 위기 속에서 가족과의 소통이 큰 힘이되어줬다 .” –TV조선 「인생다큐 마이웨이」 중

| POINT3 | 힘 안들이고 소통

현대인은 과도한 스케줄과 잦은 음주로 성대결절에 자주 걸린다. 이때는 충분히 성대에 휴식을 줘야하나, 또 많은 일정으로 말을 안하고 있기가 매우 어렵다. Voice Capsule은 현대인의 지나치게 많은 성대의 이용을 줄여준다. 그들 본인의 목소리로 의사소통이 가능하기 때문에, 업무에 지장을 끼치지 않을 뿐더러, 성대결절의 빠른 회복을 돕는다.

8887

Page 46: VoiceCapsule - LG CHALLENGERS

Voice Capsule은 개인의 목소리를 저장해 두었다가, 그가 더 이상 목소리를사용하지 못하게 되는 질병에 걸려도 본인의 목소리로 의사소통을 할 수 있게 하는 기술이다. 따라서 목표 고객층은 젊은층의 비장애인이다. 하지만 소수자를 위해 기회를 주기 위해 탄생한 Voice Capsule이기 때문에 이를 발전시키기로했다. 선천적 장애인에게 소통의 기회를부여하는 Voice Capsule의 첫 번째 발전방향으로 ‘선천적 장애인을 위한 목소리 기부’를 제안한다.

선천적 장애인을 위한 목소리를기부 받는다. 기부 여부는 전체사용자에게 질문한다. 수집 과정은 다른 녹음 과정을 거치지 않고 기본 기능을 이용하기 위해녹음했던 목소리를 저장하는 것으로 대체한다.

사용자의 특성에 알맞게 만들어진 음성을 가지고 합성 과정을 거친다.

한 사람의 목소리가 사용될경우, 기부자에게 보상상 피해를 끼칠 수 있기 때문에 합성될 목소리를 여러 개 선택하고 조합해 목소리를 만들거나 음성 변조를 통해 개인만의 목소리를 만들어준다.

사용자에게 만들어진 목소리를 제공한다. 사용자는 만들어진 목소리로 다른사람들과 의사 소통한다.

목소리 수집 목소리 선택

음성 합성 음성 출력

발전방향 1:목소리 기부

9089

Page 47: VoiceCapsule - LG CHALLENGERS

Voicecapsule의 이용자는 음성합성을 통한혜택을 제공받기 위하여, 목소리를 잃기 전에미리 본인의 목소리를 녹음해 두어야한다.언어장애인 중 구음장애를 가진 사람은 본인의목소리는 가지고 있지만, 발음이 부정확하여발음이 정확한 사람에 비해 녹음 샘플을 정확하게 읽어나가는 데에 큰 무리가 있다.구음장애인의 경우, 음성변환 기술을 이용하면부정확한 발음이 교정되어 인식되는 효과를 볼수 있다.

발전방향 2:구음장애인을위한 방안

사람들의 많은 대화가 담긴 녹음파일을 인공지능에게 학습시킨다.인공지능은 사람들이 일상생활에서 많이 사용하는 단어를 인지하게 된다.구음 장애인이 voice capsule에서 제공하는 텍스트 파일을 정확한 발음으로 읽지 못하더라도 사전에 많은 단어를 학습한 인공지능은 이미 학습한 단어들의 빈도를 통해 사용자가 어떠한 발음을 의도했는지 알 수 있게 된다.입력 받음 음성데이터를 기반으로 텍스트와 음성의 대치 작업이 이루어진다.녹음된 사용자의 음성의 음파 파일을 조절하여 음성 합성에 사용한다.

9291

Page 48: VoiceCapsule - LG CHALLENGERS

앞서 조사했듯이 사람들이 자주 쓰고 있는TTS(Text To Speech)를 조사한 결과, 삼성빅스비 3개, 애플 시리1개, 네이버 파파고 2개, Amazon Polly 1개, 구글 tts 8개, 스마트acc문자형 어플 13개로 총 28개의 기계음 밖에 없었다. 하지만 존재하는 28개의 기계음 조차 인공적으로 합성된 기계음의 부자연스러움, 자신의 목소리로 음성을 출력할 수 없다는 점 등등의 이유로 음성장애인이 다른 사람과 원활한 소통을하기엔 부족한 점이 많았다.

그래서 이런 음성장애인과 성대관련 질병을앓고 있는 사람들을 위한 음성 합성 기술인“보이스캡슐”이 탄생했다. 이 기술은 단순히목소리로 소통이 힘든 사람들이 TTS 기술을 사용한다는 것 뿐만 아니라 그들 자신의목소리로, 언제 어디서나 쉽게 타인과 소통할 수 있다는 것에 의의가 있다.

보이스캡슐의의의

9493

Page 49: VoiceCapsule - LG CHALLENGERS

VOICE

CAPSULE

9695

“상처는있어도,상실은없다”

Page 50: VoiceCapsule - LG CHALLENGERS

https://blog.ncsoft.com/게임과-ai-5-음성-합성-기술/http://news.jtbc.joins.com/html/504/NB11876504.htmlhttps://ko.wikipedia.org/wiki/FFmpeghttps://ko.wikipedia.org/wiki/tensorflowhttp://nblog.syszone.co.kr/archives/9416http://s-space.snu.ac.kr/bitstream/10371/85525/1/3.%202237163.pdf한국민족문화대백과 ‘구음기관’보건복지부, 대한의학회https://medium.com/@jongdae.lim/%EA%B8%B0%EA%B3%84-%ED%95%99%EC%8A%B5-machine-learning-%EC%9D%80-%EC%A6%90%EA%B2%81%EB%8B%A4-part-6-eb0ed6b0ed1d

네이버 지식백과-성대결절https://search.naver.com/search.naver?sm=top_hty&fbm=1&ie=utf8&query=%EC%84%B1%EB%8C%80%EA%B2%B0%EC%A0%88

네이버 지식백과-실어증https://terms.naver.com/entry.nhn?docId=927372&cid=51007&categoryId=51007

네이버 지식백과-후두암https://terms.naver.com/entry.nhn?docId=5646389&cid=60406&categoryId=60406

9897

참고문헌

네이버 지식백과-루게릭병https://terms.naver.com/entry.nhn?docId=926684&cid=51007&categoryId=51007통계청-2017년 장애인현황통계청-2015년 장애인실태조사NHIS-2012 BigdataTED- 지문만큼이나 독특한 나만의 기계음성 , RupalPatelhttps://www.ted.com/talks/rupal_patel_synthetic_voices_as_unique_as_fingerprints카카오AI리포트-음성인식방법과 카카오 i의 음성형 엔진https://brunch.co.kr/@kakao-it/105인공지능 deep voice를 이용한 tts 구현하기http://hellogohn.com/post_one295책읽어주는 딥러닝-김태훈https://carpedm20.github.io/

WAVENET: A GENERATIVE MODEL FOR RAW AUDIO, 2016, Google Deepmind