sponsored links
TEDWomen 2013

Rupal Patel: Synthetic voices, as unique as fingerprints

ルパル・パテル: 指紋のようにユニークな合成音声

December 5, 2013

重度の言語障害をもつ多くの患者はコンピューターを駆使してコミュニケーションをはかっています。でもその音声の選択肢には限りがあります。そのため、イギリス人のスティーヴン・ホーキングの声はアメリカ訛りで、多くの人達が同じ声を使い、しばしば不似合いな声で我慢しているのです。スピーチ・サイエンティストのルパル・パテルはこの現状をどうにか変えたいと願いました。素晴らしい講演の中で、パテルは声なき人達のためにユニークな声を生み出す方法について紹介します。

Rupal Patel - Speech scientist
People relying on synthetic speech use the voice they’re given, not their own. Rupal Patel created the vocaliD project to change that. Full bio

sponsored links
Double-click the English subtitles below to play the video.
I'd like to talk today
今日 皆さんにお話したいのは
00:12
about a powerful and fundamental aspect
私たちのあり方を決める
パワフルで
00:14
of who we are: our voice.
基礎的なもの―
「声」についてです
00:16
Each one of us has a unique voiceprint
私たち一人一人に独特の声紋があり
00:20
that reflects our age, our size,
私たちの年齢、体格
00:23
even our lifestyle and personality.
生活習慣や個性までも映し出します
00:25
In the words of the poet Longfellow,
ヘンリー・ワーズワース・ロングフェローは
00:28
"the human voice is the organ of the soul."
「人の声は心のオルガン(心の臓器)である」と
詩でつづりました
00:30
As a speech scientist, I'm fascinated
スピーチ・サイエンティストである私は
00:34
by how the voice is produced,
発声の仕組みに魅せられ
00:37
and I have an idea for how it can be engineered.
これを人工的に作り出す方法を
見つけました
00:39
That's what I'd like to share with you.
これを皆さんと共有いたします
00:43
I'm going to start by playing you a sample
まずは皆さんが
ご存知かもしれない
00:45
of a voice that you may recognize.
声のサンプルを流します
00:47
(Recording) Stephen Hawking: "I would have thought
(音声)スティーヴン・ホーキング:
「私が意図することは
00:48
it was fairly obvious what I meant."
かなり明確だと思っていました」
00:50
Rupal Patel: That was the voice
お聞きいただいたのは
00:53
of Professor Stephen Hawking.
スティーヴン・ホーキング教授の声です
00:54
What you may not know is that same voice
皆さんが
ご存知ないかもしれないのは
00:56
may also be used by this little girl
同じ声を
こちらの女の子のような
01:00
who is unable to speak
神経疾患で話すことができない
01:02
because of a neurological condition.
子供も使っている
可能性があることです
01:04
In fact, all of these individuals
実は このような方々は
01:07
may be using the same voice,
声の選択肢が ごく限られているため
01:09
and that's because there's
only a few options available.
同じ声を使っていることがあるのです
01:11
In the U.S. alone, there are 2.5 million Americans
アメリカだけでも
話すことができない人達が
01:14
who are unable to speak,
250万人もいます
01:18
and many of whom use computerized devices
その多くの人達が
コミュニケーション手段として
01:20
to communicate.
コンピューターを使用します
01:23
Now that's millions of people worldwide
世界規模で
数百万の人々が
01:24
who are using generic voices,
人工音声を使っているのです
01:28
including Professor Hawking,
ホーキング教授も その1人で
01:29
who uses an American-accented voice.
アメリカ訛りの音声を使っていますね
01:31
This lack of individuation of the synthetic voice
この個性に欠けた
合成音声には
01:36
really hit home
本当にショックを受けました
01:39
when I was at an assistive technology conference
数年前に障害を持つ人の
技術支援に関する会議に
01:40
a few years ago,
参加した時のことです
01:43
and I recall walking into an exhibit hall
展示ホールに足を入れると
01:45
and seeing a little girl and a grown man
小さい女の子から
成人男性まで
01:48
having a conversation using their devices,
それぞれの機器を使って
話しているんですが
01:51
different devices, but the same voice.
機器は違えど
同じ声でした
01:54
And I looked around and I saw this happening
周りを見回すと
私の周りでも
01:59
all around me, literally hundreds of individuals
同じことが起こっていました
文字通り数百人の人達が
02:00
using a handful of voices,
ごく限られた音声を使っていて
02:05
voices that didn't fit their bodies
それぞれの身体や個性に
02:07
or their personalities.
合っていないんです
02:10
We wouldn't dream of fitting a little girl
小さい女の子に
成人男性用の義足を
02:13
with the prosthetic limb of a grown man.
あてがうなんて想像できませんよね
02:15
So why then the same prosthetic voice?
ではなぜ人工音声もそうしないのか?
02:19
It really struck me,
これが大変気に掛かり
02:22
and I wanted to do something about this.
この状況を何とかしたいと思ったのです
02:23
I'm going to play you now a sample
これから お聞きいただくのは
02:26
of someone who has, two people actually,
重度の言語障害を患っている
02:28
who have severe speech disorders.
2人の音声サンプルです
02:32
I want you to take a listen to how they sound.
どのように聞こえるか
お聞きください
02:33
They're saying the same utterance.
同じ内容を発話しています
02:37
(First voice)
(第1音声)
02:39
(Second voice)
(第2音声)
02:41
You probably didn't understand what they said,
話の内容までは
分からなかったかもしれませんが
02:45
but I hope that you heard
2人の個性的な
02:47
their unique vocal identities.
音声はお分かりいただけたでしょう
02:49
So what I wanted to do next is,
次に私がやりたかったことは
02:54
I wanted to find out how we could harness
このように残された
発話能力を
02:56
these residual vocal abilities
活かして
02:59
and build a technology
使用者に合わせて カスタマイズできる
03:01
that could be customized for them,
テクノロジー
つまり彼らのために
03:03
voices that could be customized for them.
カスタマイズできる声を
開発することでした
03:05
So I reached out to my collaborator, Tim Bunnell.
そこで協力者の
ティム・バンネルに助言を仰ぎました
03:07
Dr. Bunnell is an expert in speech synthesis,
バンネル博士は音声合成の
第一人者で
03:10
and what he'd been doing is building
彼がやっているのは
03:13
personalized voices for people
事前に録音してあった
03:15
by putting together
本人の音声サンプルを用いて
03:17
pre-recorded samples of their voice
音声を復元することで
03:19
and reconstructing a voice for them.
個人用の音声を作っているのです
03:21
These are people who had lost their voice
対象となるのは後天性の障害で
03:24
later in life.
声を失った人達です
03:26
We didn't have the luxury
生まれながらに
03:28
of pre-recorded samples of speech
言語障害がある人達には
03:29
for those born with speech disorder.
「事前に録音した音声サンプル」なんてありません
03:31
But I thought, there had to be a way
でも私が考えたのは
残された かすかな声から
03:33
to reverse engineer a voice
その人の声を
03:36
from whatever little is left over.
蘇らせることができるはずだと
03:38
So we decided to do exactly that.
そこで これに取り組むことにしたのです
03:40
We set out with a little bit of funding
from the National Science Foundation,
アメリカ国立科学財団から
わずかな資金援助を受け
03:43
to create custom-crafted voices that captured
話者の独特な声の特徴を反映した
03:46
their unique vocal identities.
個人用音声の開発を始めました
03:50
We call this project VocaliD, or vocal I.D.,
私たちは このプロジェクトを
“VocaliD”や“vocal I.D.”と
03:51
for vocal identity.
名づけました
03:54
Now before I get into the details of how
これから皆さんに
この特注の声がどのように作られ
03:56
the voice is made and let you listen to it,
実際の声を お聞きいただく前に
03:59
I need to give you a real quick
speech science lesson. Okay?
音声科学についての ごく簡単な講義をします
いいですか?
04:01
So first, we know that the voice is changing
まず私たちの音声は
成長過程において
04:04
dramatically over the course of development.
劇的に変化します
04:08
Children sound different from teens
小さな子供の声は
十代の人達と異なりますし
04:10
who sound different from adults.
成人の人達も異なります
04:12
We've all experienced this.
皆さん これを経験しますね
04:14
Fact number two is that speech
2つ目の事実は発声とは
04:17
is a combination of the source,
皆さんの喉頭から発せられた
04:20
which is the vibrations generated by your voice box,
振動による音源が
04:23
which are then pushed through
残りの声道を通過することで
04:26
the rest of the vocal tract.
起こります
04:28
These are the chambers of your head and neck
皆さんの頭と首の中にある
スペースが
04:30
that vibrate,
振動することで
04:33
and they actually filter that source sound
音源をフィルターにかけて
04:34
to produce consonants and vowels.
母音と子音が発音されるのです
04:36
So the combination of source and filter
つまり音源がフィルターにかかることが
04:39
is how we produce speech.
発声のメカニズムなのです
04:43
And that happens in one individual.
これが一人一人に起きているわけです
04:45
Now I told you earlier that I'd spent
先ほど申し上げたように
04:48
a good part of my career
私は重い言語障害を患う人達の
04:51
understanding and studying
音源の特性についての
04:53
the source characteristics of people
理解と研究に
長いこと
04:55
with severe speech disorder,
携わってきました
04:57
and what I've found
そこで気づいたのは
05:00
is that even though their filters were impaired,
彼らのフィルターに障害があっても
05:01
they were able to modulate their source:
音源は調節可能であるということで
05:04
the pitch, the loudness, the tempo of their voice.
それは声のピッチ、大きさ、テンポです
05:07
These are called prosody, and
I've been documenting for years
これらはプロソディー(韻律)と呼ばれるもので
長年の調査で
05:11
that the prosodic abilities of these individuals
言語障害者のプロソディーが
健在であることを
05:14
are preserved.
実証してきました
05:16
So when I realized that those same cues
ですから これらの表現が
話し手のアイデンティティにも
05:18
are also important for speaker identity,
重要だと気づいた時
05:22
I had this idea.
このアイデアを思いついたのです
05:25
Why don't we take the source
それは発話させたい人の
05:27
from the person we want the voice to sound like,
音源を使い
05:29
because it's preserved,
―これは残っているんですね
05:31
and borrow the filter
対象となる人と同じ年齢で
05:33
from someone about the same age and size,
同じ体格の人から
フィルターを借りて
05:35
because they can articulate speech,
この明瞭な音声と
05:38
and then mix them?
混ぜたらどうかと考えたのです
05:41
Because when we mix them,
合成した声は
05:43
we can get a voice that's as clear
フィルターを借りた
05:44
as our surrogate talker --
代理話者と同じくらい
05:46
that's the person we borrowed the filter from—
明瞭な声で
私たちがターゲットとしている話者の
05:48
and is similar in identity to our target talker.
アイデンティティにも
類似しているんです
05:50
It's that simple.
こんなに簡単なんです
05:55
That's the science behind what we're doing.
これが私たちがやっていることの
裏にある科学です
05:56
So once you have that in mind,
では アイデアが思いついたところで
05:59
how do you go about building this voice?
どうやって実際に声を構築したらいいでしょう?
06:03
Well, you have to find someone
まずはフィルターを提供してくれる人を
探す必要がありました
06:05
who is willing to be a surrogate.
まずはフィルターを提供してくれる人を
探す必要がありました
06:07
It's not such an ominous thing.
全然難しいことではないんです
06:09
Being a surrogate donor
提供者になるということは
06:11
only requires you to say a few hundred
数百から数千の言葉を
06:13
to a few thousand utterances.
発声するだけです
06:16
The process goes something like this.
この過程はこんな感じです
06:18
(Video) Voice: Things happen in pairs.
声:物事は対になって起こります
06:20
I love to sleep.
寝るのが大好きです
06:22
The sky is blue without clouds.
雲一つない青い空です
06:24
RP: Now she's going to go on like this
これを3時間から
06:28
for about three to four hours,
4時間ほど続けます
06:30
and the idea is not for her to say everything
ここでのポイントは
対象となる人が話したい文章を
06:32
that the target is going to want to say,
代理人に言わせるのではなく
06:35
but the idea is to cover all the different combinations
言葉の中で生じる
全ての異なる
06:37
of the sounds that occur in the language.
音の組み合わせを
拾っていくことです
06:40
The more speech you have,
サンプルが多ければ多いほど
06:43
the better sounding voice you're going to have.
より質の良い声を得ることができます
06:45
Once you have those recordings,
収録が終わったら
06:47
what we need to do
次に必要なのは
06:49
is we have to parse these recordings
読まれた文章を解析し
06:51
into little snippets of speech,
言語の要素に分割することです
06:53
one- or two-sound combinations,
1つの音や 2つの音の組み合わせや
06:56
sometimes even whole words
時には 単語全体を
06:58
that start populating a dataset or a database.
データセットすなわちデータベースに
集積していきます
07:00
We're going to call this database a voice bank.
このデータベースを
音声バンクと呼びましょう
07:04
Now the power of the voice bank
音声バンクのパワフルな点は
07:08
is that from this voice bank,
この音声バンクから
07:10
we can now say any new utterance,
新しい言葉を発声できることで
07:12
like, "I love chocolate" --
「チョコレートが好き」とか
07:14
everyone needs to be able to say that—
これは誰でも言いたいですよね
07:16
fish through that database
データベースを駆使して
07:17
and find all the segments necessary
その言葉の発声に必要な
07:19
to say that utterance.
全ての断片を見つけるのです
07:21
(Video) Voice: I love chocolate.
声:チョコレートが好きです
07:23
RP: So that's speech synthesis.
これが音声合成です
07:25
It's called concatenative synthesis,
and that's what we're using.
波形接続合成という
私たちが使っている手法です
07:26
That's not the novel part.
これは目新しくありませんが
07:29
What's novel is how we make it sound
新しい点は どうやって
この若い女性が
07:30
like this young woman.
話すような音声にするかです
07:33
This is Samantha.
彼女の名前はサマンサです
07:34
I met her when she was nine,
私が彼女に出会ったのは
07:36
and since then, my team and I
彼女が9歳の時で
07:38
have been trying to build her a personalized voice.
私のチームは
彼女のための声を構築してきました
07:40
We first had to find a surrogate donor,
まずは代理ドナーを探して
07:43
and then we had to have Samantha
サマンサにも いくつかの
07:46
produce some utterances.
発声をお願いしました
07:47
What she can produce are mostly vowel-like sounds,
彼女が発声できるのは
主に母音だけですが
07:49
but that's enough for us to extract
彼女の音源特性を引き出すのには
07:52
her source characteristics.
十分な情報でした
07:54
What happens next is best described
次のステップは
07:57
by my daughter's analogy. She's six.
私の6歳の娘が上手く例えています
08:00
She calls it mixing colors to paint voices.
娘は「声を色づかせるために
絵の具を混ぜているんだね」と
08:03
It's beautiful. It's exactly that.
きれいですよね
まさにその通りなんです
08:08
Samantha's voice is like a concentrated sample
サマンサの声は
濃縮された食紅のように
08:11
of red food dye which we can infuse
彼女の代理ドナーの
録音した声に混ぜることで
08:13
into the recordings of her surrogate
彼女の代理ドナーの
録音した声に混ぜることで
08:16
to get a pink voice just like this.
ピンク色の声になるのです
まさに こんな風に
08:19
(Video) Samantha: Aaaaaah.
サマンサ:ああああああ
08:23
RP: So now, Samantha can say this.
今では こんな風に話せます
08:27
(Video) Samantha: This voice is only for me.
サマンサ:この声は私だけのもの
08:30
I can't wait to use my new voice with my friends.
友達と新しい声で話すのが楽しみ
08:33
RP: Thank you. (Applause)
ありがとう (拍手)
08:40
I'll never forget the gentle smile
彼女が 最初に
この声を聞いた時の
08:46
that spread across her face
顔いっぱいに広がった
08:48
when she heard that voice for the first time.
優しい笑みは ずっと忘れないでしょう
08:50
Now there's millions of people
世界中には数百万人もの
08:54
around the world like Samantha, millions,
サマンサのような人々がいます
数百万ですよ
08:56
and we've only begun to scratch the surface.
私たちの取り組みは
まだまだ始まったばかりです
08:59
What we've done so far is we have
これまでの取り組みは
09:02
a few surrogate talkers from around the U.S.
アメリカ国内で
声を提供してくれる人々を
09:04
who have donated their voices,
数名集めて
09:08
and we have been using those
私たちの初の試みとなる
09:09
to build our first few personalized voices.
個人用の声の構築に
利用しています
09:11
But there's so much more work to be done.
でも やることは山ほどあります
09:16
For Samantha, her surrogate
例えばサマンサの代理ドナーは
09:17
came from somewhere in the Midwest, a stranger
中西部の出身で
見ず知らずの他人が
09:19
who gave her the gift of voice.
声の贈り物をしてくれたのです
09:23
And as a scientist, I'm so excited
私が科学者として
とても楽しみなのは
09:26
to take this work out of the laboratory
研究室でやっていた仕事を
09:28
and finally into the real world
ついに実用化して
09:30
so it can have real-world impact.
実社会に影響を与えることです
09:32
What I want to share with you next
次に皆さんと共有させていただくのは
09:35
is how I envision taking this work
この成果を
どうやって次のレベルに
09:37
to that next level.
進めるかです
09:39
I imagine a whole world of surrogate donors
私が考えているのは
世界中の あらゆる階層の人々
09:42
from all walks of life, different sizes, different ages,
異なる体格や
違う年齢層の人々が
09:46
coming together in this voice drive
代理ドナーとなって
09:49
to give people voices
個性と同じくらい
09:52
that are as colorful as their personalities.
色彩に富んだ声を
人々に贈ることです
09:54
To do that as a first step,
これを叶えるための第一歩として
09:58
we've put together this website, VocaliD.org,
『VocaliD.org』というウェブサイトを
立ち上げました
10:00
as a way to bring together those
声や専門知識の提供を
10:04
who want to join us as voice donors,
募るためのサイトで
私たちのビジョンを
10:05
as expertise donors,
いろいろな形で
10:08
in whatever way to make this vision a reality.
支援してくれる人たちを
集める試みです
10:10
They say that giving blood can save lives.
献血で他人の命を救うことができますね
10:15
Well, giving your voice can change lives.
声を提供することで
他人の人生を変えることができます
10:19
All we need is a few hours of speech
ほんの数時間分の
代理話者の
10:24
from our surrogate talker,
音声サンプルと
10:27
and as little as a vowel from our target talker,
声を受け取る人の発声した
母音が1つでもあれば
10:29
to create a unique vocal identity.
独特な声のアイデンティティを
作れます
10:34
So that's the science behind what we're doing.
これが私たちがやっている裏にある
科学なんです
10:37
I want to end by circling back to the human side
この仕事に
インスピレーションをもたらしてくれた
10:40
that is really the inspiration for this work.
人間的な部分に立ち返ることで
締めくくります
10:44
About five years ago, we built our very first voice
約5年前のことです
私たちが最初に作った声は
10:48
for a little boy named William.
ウィリアムという男の子のためでした
10:52
When his mom first heard this voice,
母親が この声を始めて耳にした時
10:55
she said, "This is what William
「まさにウィリアムの声だ
10:57
would have sounded like
もし この子が話せていたら
10:59
had he been able to speak."
きっとこんな声だったに違いない」と
11:01
And then I saw William typing a message
するとウィリアムが
彼の機器で
11:03
on his device.
メッセージをタイプするんです
11:06
I wondered, what was he thinking?
私は彼が何を考えているのか
思いを馳せました
11:07
Imagine carrying around someone else's voice
9年間も他人の声を使っていた
11:10
for nine years
男の子が
11:14
and finally finding your own voice.
ついに自分の声を手に入れたのです
11:16
Imagine that.
どんな気分だと思いますか
11:21
This is what William said:
ウィリアムはこう言いました
11:22
"Never heard me before."
「自分の声でしゃべったのは初めてだ」
11:25
Thank you.
ありがとうございました
11:32
(Applause)
(拍手)
11:33
Translator:Mari Arimitsu
Reviewer:Akiko Hicks

sponsored links

Rupal Patel - Speech scientist
People relying on synthetic speech use the voice they’re given, not their own. Rupal Patel created the vocaliD project to change that.

Why you should listen

Northeastern University computer science professor Rupal Patel looks for ways to give voice to the voiceless. As founder and director of the Communication Analysis and Design Laboratory (CadLab), she developed a technology that combines real human voices with the characteristics of individual speech patterns. The result is VocaliD, an innovation that gives people who can't speak the ability to communicate in a voice all their own.

"There's nothing better than seeing the person who's actually going to use it, seeing their reaction, seeing their smile," says Patel.

sponsored links

If you need translations, you can install "Google Translate" extension into your Chrome Browser.
Furthermore, you can change playback rate by installing "Video Speed Controller" extension.

Data provided by TED.

This website is owned and operated by Tokyo English Network.
The developer's blog is here.