"Text-to-Speech"는 무엇인가요? | TTS 시스템

"Text-to-Speech"는
무엇인가요?

TTS(Text-To-Speech) 합성 시스템은 음성 지원 기술에 사용하기 위해 문자로 된 텍스트를 음성으로 변환해 주는 시스템입니다. PTW/SIDE에서는 대형 테크 기업이 TTS 시스템에 사용하기 위한 데이터의 수집 및 큐레이팅을 하고 있습니다.

TTS 합성 시스템을 만들기 위해서는 오디오와 그에 맞는 텍스트, 그리고 해당 텍스트에 대한 추가 정보가 필요한데, 예를 들자면 각 단어들의 발음이 어떻게 되는지와 같은 부분입니다. 이 모든 데이터는 합성 모델을 트레이닝 시키기 위한 용도로 사용되며, 자동으로 음성을 출력하고 텍스트를 크고 정확하게 읽을 수 있도록 해 줍니다. TTS는 스마트폰, 스마트 스피커, 시력 기능 장애를 가진 사람을 대상으로 하는 지원 기술, 기차역, 공항 등에서 사용하고 있습니다.

TTS 데이터 프로젝트의 첫 번째 단계는 자격을 갖춘 언어학자를 채용하는 것입니다. 지원자의 주요 전제 조건은 정식으로 언어학을 전공한 사람들로, 특히 음성학과 음운학을 배운 사람이어야 합니다. 후보자는 반드시 국제 음성 기호(IPA: International Phonetic Alphabet)에 맞춰 단어의 발음을 기록한 적이 있거나, 그에 유사한 경력(대학교 프로젝트를 수행한 경험 등)이 있어야 합니다. 또한, 언어학자는 우리가 채용을 진행하는 언어의 원어민이어야 합니다.

예비 후보들은 고객사에서 준비한 면접을 포함한 선별 시험에 통과해야 합니다.

언어들은 지역에 따라서 매우 다릅니다. 그렇지만 TTS 시스템의 목적을 고려하면, 가능한 한 구체적으로 특수한 일부 방언들을 정의해야 합니다. 데이터 수집을 위한 방언을 선정할 때 언어학자들이 고려해야 하는 점은 다음과 같습니다.

방송 및 뉴스에서 사용하는 방언은 어떤 것이 있는가?
수도, 또는 주요 도심 지역에서 사용되는 방언은 어떤 것이 있는가?
언어를 번갈아가며 사용하는가? (대화를 할 때 두 개 이상의 언어를 구사하는가?)
해당 언어에서 구어와 문어체 간에 차이가 있는가?

또한 TTS 시스템은 해당 언어에 대한 언어학적 정의를 요구합니다. 언어학자들은 해당 언어에서 허용하는 독특한 소리들을 정의하고, 어떤 소리의 조합이 유효한지 정의하는 데 도움을 줍니다.

TTS 시스템은 트레이닝 데이터(오디오 및 그에 부합하는 텍스트)를 사용하여, 문자들을 어떻게 소리로 변환해야 하는지 학습하게 됩니다. 저희의 목표는 어떤 단어든지 자동으로 발음할 수 있는 시스템을 만드는 것입니다. 안타깝게도, 간단한 작업은 아닙니다. 때때로 언어학자들은 단어의 발음을 기술할 때 이를 명시적으로 표기해야 하는데, 특히 흔히 쓰이지 않는 단어나 외래어, 또는 철자가 일반적인 발음 법칙을 따르지 않는 경우가 그렇습니다. 모든 철자 및 발음은 특수한 사전에 입력되며, 이를 발음 어휘(Pronunciation Lexicon)라고 합니다.

TTS 데이터 프로젝트의 다음 단계는 보이스 아티스트가 크고 또렷하게 읽고 이를 녹음할 스크립트를 준비하는 것입니다. 이 스크립트의 목표는 해당 언어에서 허용되는 모든 음소의 조합을 캡처하는 것입니다. 또한, 만들어진 스크립트가 쉽게 읽을 수 있도록 해야 합니다. 마지막으로, 스크립트의 각 단어에 대해 그 발음을 체크하고 어휘로 이를 기록하여, TTS 모델이 고품질의 트레이닝 데이터를 얻을 수 있도록 해야 합니다.

TTS 데이터 프로젝트의 끝에서 두 번째 단계는 오디오 레코딩입니다. 이를 위해서는 목표 방언을 자연스럽게 말할 수 있는 성우를 찾아야 합니다. 작성된 스크립트는 사전에 익힐 수 없는 만큼 이를 담당할 성우는 반드시 현장에서 바로 읽을 수 있어야 합니다.

선정된 성우는 이전에 큐레이션한 스크립트를 녹음하며, 필요하다면 렉시콘에 등록된 발음을 업데이트 할 것입니다. 예를 들어, 만약 성우가 어떤 단어를 특정 방식으로 계속해서 발음한다면, 렉시콘 내에 등록한 발음을 최대한 가까운 것과 일치하도록 이를 업데이트 해야 합니다.

SIDE는 전세계에서 TTS 레코딩에 최적화된 스튜디오 및 팀을 구성하는데 특화되어 있습니다. 40개 이상의 언어 및 지역에서 캐스팅하고 레코딩한 보이스가 있습니다.

TTS를 위한 캐스팅, 레코딩은 다른 형태의 보이스오버 작업과는 다릅니다. 각 라인은 반드시 균일하고 일관된 톤과 음량으로 읽혀야 합니다. 또한, 스크립트를 읽을 때 목소리는 자연스러워야 하며, 지나치게 연기톤이 되어선 안됩니다. 이는 균일한 트레이닝 데이터를 통해 TTS 음성에서 보다 매끄러운 합성 음성을 제공할 수 있도록 하기 위함입니다.

그 후에 링귀스트들은 녹음된 레코딩 데이터를 평가하여, 오디오 데이터가 텍스트에 일치하는지 확인하고, 성우의 발음이 유효한지, 렉시콘에 저장된 것과 일치하는지 확인해야 합니다. 이 단계에서 렉시콘에 등록된 자료에 대해 필요하다면 업데이트 할 수 있습니다.

이 모든 것이 고객의 툴을 통해 진행되기 때문에 평가 단계가 끝난 뒤에는 데이터를 전달하는 일이 없습니다. 오디오의 품질 및 정확도에 대한 평가가 완료되면, SIDE는 이 프로세스에서 물러나며, 고객 측 팀에서 새로운 오디오 파일을 사용할 준비를 마칩니다. TTS는 테크 기업들이 접근성 기능을 자신의 제품 또는 업무에 통합하는 과정에서 큰 부분을 차지하고 있으며, SIDE는 그 일부를 담당하고 있다는 점이 기쁩니다. 여러분의 사업에서 TTS 같은 것을 통합하는 전략의 수립은 까다로울 수 있으며, 저희 SIDE와 더불어 TTS를 함께 진행하는 경우 사업에서 어떻게 적용될 수 있을지에 대한 무료 상담을 제안드리고 있습니다.

현지화 QA 관련

LQA 게임 테스트 준비 및 수행 방법과 모범 사례

Meet the Team: Flavia Souza

모든 플레이어를 위한 존중: LQA가 정말 중요한 이유