English-Video.net comment policy

The comment field is common to all languages

Let's write in your language and use "Google Translate" together

Please refer to informative community guidelines on TED.com

TED2015

Fei-Fei Li: How we're teaching computers to understand pictures

フェイフェイ・リー: コンピュータが写真を理解するようになるまで

Filmed
Views 2,055,368

小さな子供は写真を見て「ネコ」や「本」や「椅子」のような簡単な要素を識別できます。今やコンピュータも同じことができるくらいに賢くなりました。次は何でしょう? この胸躍る講演で、コンピュータビジョンの専門家であるフェイフェイ・リーが、写真を理解できるようコンピュータに「教える」ために構築された1500万の画像データベースをはじめとする、この分野の最先端と今後について語ります。

- Computer scientist
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio

Let〜する me showショー you君は something何か.
まずこのビデオを
ご覧ください
00:14
(Videoビデオ) Girl女の子: Okayはい, that'sそれは aa catネコ
sitting座っている in aa bedベッド.
(女の子の声) ネコがベッドに座ってる
00:18
Theその boy男の子 is pettingペッティング theその elephant.
男の子が象をなでてる
00:22
Thoseそれら are people
thatそれ are going行く on an airplane飛行機.
飛行機へ行く人たち
00:26
That'sそれは aa big大きい airplane飛行機.
大きな飛行機よ
00:30
Fei-Feiフェイフェイ Li: Thisこの is
aa three-year-old3歳 child
(講演者) これは3歳児が
00:33
describing記述 what she彼女 sees見える
in aa seriesシリーズ of photos写真.
見た写真を
説明しているところです
00:35
She彼女 mightかもしれない stillまだ have持ってる aa lotロット
to learn学ぶ about thisこの world世界,
彼女にはこの世界で学ぶことが
まだまだあるかもしれませんが
00:39
butだけど she's彼女は already既に an expert専門家
at〜で one1 very非常に important重要 task仕事:
ひとつの重要な作業については
すでにエキスパートです
00:42
to make作る senseセンス of what she彼女 sees見える.
見たものを理解する
ということです
00:46
Our我々の society社会 is moreもっと
technologically技術的に advanced高度な thanより everこれまで.
私たちの社会は技術的に
かつてなく進歩しています
00:50
We我々 send送信する people to theその moon,
we我々 make作る phones電話機 thatそれ talkトーク to us米国
月へと人を送り込み
人に話しかける電話を作り
00:54
orまたは customizeカスタマイズ radio無線 stations
thatそれ canできる play遊びます onlyのみ music音楽 we我々 like好きな.
自分の好きな曲だけがかかるように
ラジオをカスタマイズしています
00:58
Yetまだ, our我々の most最も advanced高度な
machines機械 andそして computersコンピュータ
しかしながら最先端の
コンピュータでも
01:03
stillまだ struggle闘争 at〜で thisこの task仕事.
まだこの作業には
手こずっているんです
01:07
Soそう I'm私は hereここに today今日
to give与える you君は aa progress進捗 report報告する
私は今日コンピュータビジョンの
01:09
on theその latest最新 advances進歩
in our我々の research研究 in computerコンピューター visionビジョン,
最新動向について
お伝えするために来ました
01:13
one1 of theその most最も frontierフロンティア
andそして potentially潜在的 revolutionary革命的な
これはコンピュータサイエンスの中でも
先端にあって
01:17
technologiesテクノロジー in computerコンピューター science科学.
画期的なものになる
可能性のある技術です
01:21
Yesはい, we我々 have持ってる prototyped試作品 cars
thatそれ canできる driveドライブ by〜によって themselves自分自身,
自分で運転する車の
プロトタイプが作られていますが
01:24
butだけど withoutなし smartスマート visionビジョン,
they彼ら cannotできない really本当に telltell theその difference
知的な視覚処理能力がなかったら
01:29
betweenの間に aa crumpledくしゃくしゃ paper bagバッグ
on theその road道路, whichどの canできる be〜する run走る over以上,
踏みつぶしても問題のない
道路上の丸めた紙袋と
01:33
andそして aa rock thatそれ sizeサイズ,
whichどの should〜すべき be〜する avoided避ける.
避けて通るべき同じ大きさの石とを
見分けることもできません
01:37
We我々 have持ってる made fabulous素晴らしい megapixelメガピクセル camerasカメラ,
すごいメガピクセルの
カメラが作られていますが
01:41
butだけど we我々 have持ってる notない delivered配信された
sight視力 to theその blindブラインド.
盲目の人に視力を与えることは
できていません
01:44
Drones無人機 canできる fly飛ぶ over以上 massive大規模 land土地,
無人機を広大な土地の上に
飛ばすことはできても
01:48
butだけど don'tしない have持ってる enough十分な visionビジョン technology技術
熱帯雨林の変化を
追跡できるだけの
01:51
to help助けて us米国 to trackトラック
theその changes変更 of theその rainforests熱帯雨林.
画像技術はまだありません
01:53
Securityセキュリティ camerasカメラ are everywhereどこにでも,
監視カメラが至る所に
設置されていますが
01:57
butだけど they彼ら do行う notない alertアラート us米国 whenいつ aa child
is drowning溺死 in aa swimming水泳 poolプール.
プールで溺れている子がいても
警告してはくれません
02:00
Photos写真 andそして videosビデオ are becoming〜になる
an integral積分 part of globalグローバル life生活.
写真やビデオは世界において
生活に不可欠な一部をなしています
02:06
They're彼らは beingであること generated生成された at〜で aa paceペース
that'sそれは far遠い beyond超えて what anyどれか human人間,
どんな個人であれ チームであれ
見切れないほどのペースで
02:11
orまたは teamsチーム of humans人間, couldできた hope希望 to view見る,
映像が量産されています
02:15
andそして you君は andそして I are contributing貢献する
to thatそれ at〜で thisこの TEDテッド.
そして私たちも ここTEDで
それに貢献しています
02:18
Yetまだ our我々の most最も advanced高度な softwareソフトウェア
is stillまだ struggling苦しい at〜で understanding理解
しかし最も進んだ
ソフトウェアでさえ
02:22
andそして managing管理します thisこの enormous巨大な contentコンテンツ.
この膨大な映像を理解し管理するのに
手こずっています
02:27
Soそう in otherその他 words言葉,
collectively集合的に asとして aa society社会,
言ってみれば
02:31
we're私たちは very非常に muchたくさん blindブラインド,
私たちの社会は
集合的に盲目であり
02:36
becauseなぜなら our我々の smartest最もスマートな
machines機械 are stillまだ blindブラインド.
それは最も知的な機械が
いまだ盲目だからです
02:38
"Whyなぜ is thisこの soそう hardハード?" you君は mayかもしれない ask尋ねる.
なぜそんなに難しいのかと
思うかもしれません
02:43
Camerasカメラ canできる take取る picturesピクチャー like好きな thisこの one1
カメラはこのような写真を撮って
02:46
by〜によって converting変換する lightsライト into
aa two-dimensional二次元 arrayアレイ of numbers数字
光をピクセルと呼ばれる
02:49
known既知の asとして pixelsピクセル,
数字の2次元配列へと
変換しますが
02:53
butだけど theseこれら are justちょうど lifeless生命のない numbers数字.
これは死んだ数字の列に
過ぎません
02:54
They彼ら do行う notない carryキャリー meaning意味 in themselves自分自身.
数字自体に意味はありません
02:57
Justちょうど like好きな to hear聞く is notない
theその same同じ asとして to listen聴く,
単に音が耳に入ってくるのと
「聴く」のとは違うように
03:00
to take取る picturesピクチャー is notない
theその same同じ asとして to see見る,
「写真を撮る」のと「見る」のとは
同じではありません
03:04
andそして by〜によって seeing見る,
we我々 really本当に mean平均 understanding理解.
「見る」ということには
理解することが含まれているのです
03:08
In fact事実, itそれ took取った Mother Nature自然
540 million百万 years of hardハード work作業
実際この仕事を
成し遂げられるようにするために
03:13
to do行う thisこの task仕事,
母なる自然は 5億4千万年という
長い歳月を必要としたのです
03:19
andそして muchたくさん of thatそれ effort努力
そしてその努力の多くは
03:21
went行った into developing現像 theその visualビジュアル
processing処理 apparatus装置 of our我々の brains頭脳,
目そのものではなく
03:23
notない theその eyes themselves自分自身.
脳の視覚処理能力を発達させるために
費やされました
03:28
Soそう visionビジョン begins始まる with〜と theその eyes,
視覚というのは
目から始まりますが
03:31
butだけど itそれ truly真に takesテイク place場所 in theその brain.
それが本当に起きているのは
脳の中なのです
03:33
Soそう forために 15 years now, starting起動
fromから myじぶんの Phph.Dd. at〜で Caltechカルテック
これまで15年間
カリフォルニア工科大学の博士課程の頃から
03:38
andそして then次に leading先導 Stanford'sスタンフォード Visionビジョン Lab研究室,
スタンフォード大でコンピュータビジョン研究室を
率いている今に到るまで
03:43
I've私は beenされている workingワーキング with〜と myじぶんの mentorsメンター,
collaborators協力者 andそして students学生の
私は指導教官や共同研究者や
学生達とともに
03:46
to teach教える computersコンピュータ to see見る.
コンピュータに見ることを
教えようとしてきました
03:50
Our我々の research研究 fieldフィールド is calledと呼ばれる
computerコンピューター visionビジョン andそして machine機械 learning学習.
私たちの研究領域は
コンピュータビジョンと機械学習で
03:54
It'sそれは part of theその general一般 fieldフィールド
of artificial人工的な intelligenceインテリジェンス.
これは人工知能の分野の一部です
03:57
Soそう ultimately最終的に, we我々 want欲しいです to teach教える
theその machines機械 to see見る justちょうど like好きな we我々 do行う:
最終的に私たちがしたいのは
機械も人間のようにものを見られるようにすることです
04:03
namingネーミング objectsオブジェクト, identifying識別 people,
inferring推論 3Dd geometryジオメトリ of thingsもの,
物が何か言い当て 人を識別し
3次元的な配置を推量し
04:08
understanding理解 relations関係, emotions感情,
actions行動 andそして intentions意図.
関係や感情や行動や意図を
理解するということです
04:13
You君は andそして I weave織る together一緒に entire全体 stories物語
of people, places場所 andそして thingsもの
私たち人間は一目見ただけで
04:19
theその moment瞬間 we我々 lay寝る our我々の gaze視線 on themそれら.
人 場所 物の織りなす物語全体を
捉えることができます
04:25
Theその first最初 stepステップ towards方向 thisこの goalゴール
is to teach教える aa computerコンピューター to see見る objectsオブジェクト,
この目標に向けた第一歩は
04:28
theその building建物 blockブロック of theその visualビジュアル world世界.
コンピュータに視覚世界の構成要素である物を
見られるようにすることです
04:34
In itsその simplest最も単純な terms条項,
imagine想像する thisこの teaching教える processプロセス
簡単に言うと
04:37
asとして showing表示 theその computersコンピュータ
some一部 trainingトレーニング imagesイメージ
ネコのような特定の物の
04:42
of aa particular特に objectオブジェクト, let'sさあ sayいう cats,
訓練用画像を
コンピュータに与えて
04:45
andそして designing設計 aa modelモデル thatそれ learns学ぶ
fromから theseこれら trainingトレーニング imagesイメージ.
それらの画像から学習する
モデルを設計するんです
04:48
Howどうやって hardハード canできる thisこの be〜する?
簡単そうに聞こえますよね?
04:53
After allすべて, aa catネコ is justちょうど
aa collectionコレクション of shapes andそして colors,
ネコの画像は色と形の
集まりに過ぎません
04:55
andそして thisこの is what we我々 didした
in theその early早い days日々 of objectオブジェクト modelingモデリング.
これは初期のオブジェクト・モデリングで
私たちがやっていたことでした
04:59
We'd結婚した telltell theその computerコンピューター algorithmアルゴリズム
in aa mathematical数学 language言語
数学的な言語を使って
コンピュータアルゴリズムに
05:03
thatそれ aa catネコ has持っている aa round円形 face,
aa chubbyふわふわした body,
ネコには 丸い顔と
ぽっちゃりした体と
05:07
two pointy尖った ears, andそして aa long長いです tail,
2つのとがった耳と
長いしっぽがあると教え
05:10
andそして thatそれ looked見た allすべて fine細かい.
それでうまくいきそうでした
05:12
Butだけど what about thisこの catネコ?
でもこのネコはどうでしょう?
05:14
(Laughter笑い)
(笑)
05:16
It'sそれは allすべて curledカールした upアップ.
体がすっかり反り返っています
05:18
Now you君は have持ってる to add追加する another別の shape形状
andそして viewpoint観点 to theその objectオブジェクト modelモデル.
オブジェクトモデルに新しい形と視点を
追加する必要があります
05:19
Butだけど what ifif cats are hidden隠された?
でもネコが一部隠れていたら
どうでしょう?
05:24
What about theseこれら silly愚かな cats?
このおかしなネコたちはどうでしょう?
05:27
Now you君は get取得する myじぶんの pointポイント.
言いたいこと分かりますよね?
05:31
Even偶数 something何か asとして simple単純
asとして aa household家庭 petペット
身近なペットのネコという
シンプルなものでさえ
05:33
canできる presentプレゼント an infinite無限 number
of variationsバリエーション to theその objectオブジェクト modelモデル,
オブジェクトモデルに
無数のバリエーションを定義する必要があり
05:36
andそして that'sそれは justちょうど one1 objectオブジェクト.
しかもこれは沢山あるものの
1つに過ぎないんです
05:41
Soそう about eight8 years ago,
8年ほど前
05:44
aa very非常に simple単純 andそして profound深遠な observation観察
changedかわった myじぶんの thinking考え.
とてもシンプルながら本質的なある観察が
私の考え方を変えました
05:47
Noいいえ one1 tells伝える aa child howどうやって to see見る,
子供は教えられなくても
05:53
especially特に in theその early早い years.
成長の初期に
ものの見方を身に付けるということです
05:56
They彼ら learn学ぶ thisこの throughを通して
real-world現実の世界 experiences経験 andそして examples.
子供は現実の世界における
経験と例を通して学ぶのです
05:58
Ifif you君は consider検討する aa child's子供の eyes
子供の目が
生きたカメラで
06:03
asとして aa pairペア of biological生物学的 camerasカメラ,
200ミリ秒ごとに1枚
06:06
they彼ら take取る one1 picture画像
about everyすべて 200 millisecondsミリ秒,
写真を撮っていると
考えてみましょう
06:08
theその average平均 time時間 an eye movement移動 is made.
これは目が動く
平均時間です
06:12
Soそう by〜によって age年齢 three, aa child would〜する have持ってる seen見た
hundreds数百 of millions何百万 of picturesピクチャー
すると子供は3歳になるまでに
何億枚という
06:15
of theその realリアル world世界.
現実世界の写真を
見ていることになります
06:21
That'sそれは aa lotロット of trainingトレーニング examples.
膨大な量の訓練例です
06:23
Soそう instead代わりに of focusingフォーカス solely単独で
on betterより良い andそして betterより良い algorithmsアルゴリズム,
それで気が付いたのは
アルゴリズムの改良ばかりに集中するのではなく
06:26
myじぶんの insight洞察力 wasあった to give与える theその algorithmsアルゴリズム
theその kind種類 of trainingトレーニング dataデータ
子供が経験を通じて
受け取るような
06:32
thatそれ aa child wasあった given与えられた throughを通して experiences経験
量と質の訓練データを
06:37
in bothどちらも quantity andそして quality品質.
アルゴリズムに与えてはどうか
ということでした
06:40
Once一度 we我々 know知っている thisこの,
このことに気付いた時
06:44
we我々 knew知っていた we我々 needed必要な to collect集める aa dataデータ setセット
私たちが持っているよりも
遙かに多くの画像データを
06:46
thatそれ has持っている far遠い moreもっと imagesイメージ
thanより we我々 have持ってる everこれまで had持っていました before,
集めなければならないことが
明らかでした
06:49
perhapsおそらく thousands of times moreもっと,
何千倍も必要です
06:54
andそして together一緒に with〜と Professor教授
Kaiカイ Li at〜で Princetonプリンストン University大学,
それで私はプリンストン大学の
カイ・リー教授と一緒に
06:56
we我々 launched打ち上げ theその ImageNetイマージネ projectプロジェクト in 2007.
2007年にImageNetプロジェクトを
立ち上げました
07:00
Luckily幸運にも, we我々 didn'tしなかった have持ってる to mountマウント
aa cameraカメラ on our我々の head
幸い私たちは
頭にカメラを付けて
07:05
andそして wait待つ forために manyたくさんの years.
何年も歩き回る必要は
ありませんでした
07:09
We我々 went行った to theその Internetインターネット,
人類がかつて作った
最大の画像の宝庫
07:11
theその biggest最大 treasure trove〜する of picturesピクチャー
thatそれ humans人間 have持ってる everこれまで created作成した.
インターネットに
向かったのです
07:12
We我々 downloadedダウンロードした nearlyほぼ aa billion imagesイメージ
私たちは10億枚近い画像を
ダウンロードし
07:17
andそして used中古 crowdsourcingクラウドソーシング technology技術
like好きな theその Amazonアマゾン Mechanical機械的 Turkトルコ platformプラットフォーム
アマゾン・メカニカル・タークのような
クラウドソーシング技術を使って
07:20
to help助けて us米国 to labelラベル theseこれら imagesイメージ.
それらの画像に
ラベル付けをしました
07:25
At〜で itsその peakピーク, ImageNetイマージネ wasあった one1 of
theその biggest最大 employers雇用主
最盛期にはImageNetは
アマゾン・メカニカル・ターク作業者の
07:28
of theその Amazonアマゾン Mechanical機械的 Turkトルコ workers労働者:
最大の雇用者の1つに
なっていました
07:33
together一緒に, almostほぼ 50,000 workers労働者
167カ国の
07:36
fromから 167 countries aroundまわり theその world世界
5万人近い作業者が
07:40
helped助けた us米国 to cleanクリーン, sortソート andそして labelラベル
10億枚近い画像を
整理しラベル付けする作業に
07:44
nearlyほぼ aa billion candidate候補者 imagesイメージ.
携わりました
07:48
Thatそれ wasあった howどうやって muchたくさん effort努力 itそれ took取った
子供がその成長の初期に
受け取るのに
07:52
to captureキャプチャー even偶数 aa fraction分数
of theその imageryイメージ
匹敵する量の画像を
用意するためには
07:55
aa child's子供の mindマインド takesテイク in
in theその early早い developmental発達する years.
それほどの労力が
必要だったのです
07:59
In hindsight後見人, thisこの ideaアイディア of usingを使用して big大きい dataデータ
コンピュータアルゴリズムの訓練に
ビッグデータを使うというアイデアは
08:04
to train列車 computerコンピューター algorithmsアルゴリズム
mayかもしれない seem思われる obvious明らか now,
今からすると
自明なものに見えるでしょうが
08:08
butだけど backバック in 2007, itそれ wasあった notない soそう obvious明らか.
2007年当時は
そうではありませんでした
08:12
We我々 wereあった fairlyかなり alone単独で on thisこの journey
forために quiteかなり aa whilewhile.
かなり長い間 こんなことをやっている人は
私たち以外にいませんでした
08:16
Some一部 very非常に friendlyフレンドリーな colleagues同僚 advisedアドバイス me
to do行う something何か moreもっと useful有用 forために myじぶんの tenure在籍,
親切な同僚が将来の職のためにもう少し有用なことを
した方がいいとアドバイスしてくれたくらいです
08:20
andそして we我々 wereあった constantly常に struggling苦しい
forために research研究 funding資金調達.
研究資金には
いつも困っていました
08:25
Once一度, I even偶数 joked冗談を言った to myじぶんの graduate卒業 students学生の
ImageNetの資金調達のために
クリーニング屋をまた開こうかしらと
08:29
thatそれ I would〜する justちょうど reopen再開
myじぶんの dryドライ cleaner'sクリーナー shopショップ to fund基金 ImageNetイマージネ.
学生に冗談で言ったくらいです
08:32
After allすべて, that'sそれは howどうやって I funded資金提供
myじぶんの collegeカレッジ years.
私が学生の頃 学費のために
やっていたことです
08:36
Soそう we我々 carried運ばれた on.
私たちは進み続け
08:41
In 2009, theその ImageNetイマージネ projectプロジェクト delivered配信された
2009年に
ImageNetプロジェクトは
08:43
aa databaseデータベース of 15 million百万 imagesイメージ
日常的な英語を使って
2万2千のカテゴリに分類した
08:46
across横断する 22,000 classesクラス
of objectsオブジェクト andそして thingsもの
1500万枚の画像の
データベースを
08:50
organized組織された by〜によって everyday毎日 English英語 words言葉.
完成させました
08:55
In bothどちらも quantity andそして quality品質,
これは量という点でも
質という点でも
08:58
thisこの wasあった an unprecedented前例のない scale規模.
かつてないスケールのものでした
09:01
Asとして an example, in theその case場合 of cats,
一例を挙げると
09:04
we我々 have持ってる moreもっと thanより 62,000 cats
ネコの画像は
6万2千点以上あって
09:08
of allすべて kinds種類 of looks外見 andそして posesポーズ
様々な見かけや
ポーズのネコがいて
09:11
andそして across横断する allすべて species
of domestic国内の andそして wild野生 cats.
飼い猫から山猫まで
あらゆる種類を網羅しています
09:15
We我々 wereあった thrilled興奮した
to have持ってる put置く together一緒に ImageNetイマージネ,
私たちはImageNetが
できあがったことを喜び
09:20
andそして we我々 wanted欲しい theその whole全体 research研究 world世界
to benefit利益 fromから itそれ,
世界の研究者にも
その恩恵を受けて欲しいと思い
09:23
soそう in theその TEDテッド fashionファッション,
we我々 opened開かれた upアップ theその entire全体 dataデータ setセット
TEDの流儀で
データセットをまるごと
09:27
to theその worldwide世界的に
research研究 communityコミュニティ forために free無料.
無償で世界の研究者コミュニティに
公開しました
09:31
(Applause拍手)
(拍手)
09:36
Now thatそれ we我々 have持ってる theその dataデータ
to nourish栄養を与える our我々の computerコンピューター brain,
こうしてコンピュータの脳を
育てるためのデータができ
09:41
we're私たちは ready準備完了 to come来る backバック
to theその algorithmsアルゴリズム themselves自分自身.
アルゴリズムに取り組む
用意が整いました
09:45
Asとして itそれ turned回した outでる, theその wealth
of information情報 provided提供された by〜によって ImageNetイマージネ
それで分かったのは
ImageNetが提供する豊かな情報に適した
09:49
wasあった aa perfect完璧な match一致 to aa particular特に classクラス
of machine機械 learning学習 algorithmsアルゴリズム
機械学習アルゴリズムがあることです
09:54
calledと呼ばれる convolutional畳み込み neuralニューラル networkネットワーク,
畳み込みニューラルネットワークと言って
09:59
pioneered開拓者 by〜によって Kunihikoクニヒコ Fukushima福島,
Geoffジオフ Hintonヒントン, andそして Yannヤン LeCunレクターン
福島邦彦 ジェフリー・ヒントン
ヤン・ルカンといった人たちが
10:02
backバック in theその 1970ss andそして ''80ss.
1970年代から1980年代にかけて
開拓した領域です
10:07
Justちょうど like好きな theその brain consists〜する
of billions何十億 of highly高く connected接続された neuronsニューロン,
脳が何十億という高度に結合し合った
ニューロンからできているように
10:10
aa basic基本的な operatingオペレーティング unit単位 in aa neuralニューラル networkネットワーク
ニューラルネットワークの
基本要素となっているのは
10:16
is aa neuron-likeニューロンのような nodeノード.
ニューロンのようなノードです
10:20
Itそれ takesテイク input入力 fromから otherその他 nodesノード
他のノードからの入力を受けて
10:22
andそして sendsセンド output出力 to othersその他.
他のノードへ出力を渡します
10:25
Moreoverまた、, theseこれら hundreds数百 of thousands
orまたは even偶数 millions何百万 of nodesノード
何十万 何百万という
このようなノードが
10:28
are organized組織された in hierarchical階層的 layers,
これも脳と同様に
10:32
alsoまた、 similar類似 to theその brain.
階層的に組織化されています
10:36
In aa typical典型的な neuralニューラル networkネットワーク we我々 useつかいます
to train列車 our我々の objectオブジェクト recognition認識 modelモデル,
物を認識するモデルを訓練するために
私たちが通常使うニューラルネットワークには
10:38
itそれ has持っている 24 million百万 nodesノード,
2千4百万のノード
10:43
140 million百万 parametersパラメーター,
1億4千万のパラメータ
10:46
andそして 15 billion connections接続.
150億の結合があります
10:49
That'sそれは an enormous巨大な modelモデル.
ものすごく大きなモデルです
10:52
Powered動力 by〜によって theその massive大規模 dataデータ fromから ImageNetイマージネ
ImageNetの膨大なデータと
10:55
andそして theその modernモダン CPUscpus andそして GPUsgpus
to train列車 suchそのような aa humongous膨大な modelモデル,
現代のCPUやGPUの性能を使って
このような巨大なモデルを訓練することで
10:58
theその convolutional畳み込み neuralニューラル networkネットワーク
畳み込みニューラルネットワークは
11:04
blossomed開花した in aa way方法 thatそれ noいいえ one1 expected期待される.
誰も予想しなかったくらいに
大きく花開きました
11:06
Itそれ becameなりました theその winning勝つ architecture建築
これは物の認識において
目覚ましい結果を出す
11:10
to generate生成する excitingエキサイティング new新しい results結果
in objectオブジェクト recognition認識.
大当たりのアーキテクチャとなっています
11:12
Thisこの is aa computerコンピューター telling伝える us米国
ここではコンピュータが
11:18
thisこの picture画像 contains含まれる aa catネコ
写真の中にネコがいることと
11:20
andそして whereどこで theその catネコ is.
その場所を示しています
11:23
Of courseコース thereそこ are moreもっと thingsもの thanより cats,
もちろんネコ以外のものも
認識できます
11:25
soそう here'sここにいる aa computerコンピューター algorithmアルゴリズム telling伝える us米国
こちらではコンピュータアルゴリズムが
11:27
theその picture画像 contains含まれる
aa boy男の子 andそして aa teddyテディ bearくま;
写真の中に男の子とテディベアが
写っていることを教えています
11:29
aa dog, aa person, andそして aa small小さい kite
in theその backgroundバックグラウンド;
犬と 人物と 後方に小さな凧が
あることを示しています
11:32
orまたは aa picture画像 of very非常に busy忙しい thingsもの
とても沢山のものが
写った写真から
11:37
like好きな aa manおとこ, aa skateboardスケートボード,
railings手すり, aa lampostランプスト, andそして soそう on.
男性 スケートボード 手すり
街灯などを見分けています
11:40
Sometimes時々, whenいつ theその computerコンピューター
is notない soそう confident自信を持って about what itそれ sees見える,
写っているものが何なのか コンピュータが
そんなに自信を持てない場合もあります [動物]
11:45
we我々 have持ってる taught教えた itそれ to be〜する smartスマート enough十分な
コンピュータには
当て推量をするよりは
11:51
to give与える us米国 aa safe安全 answer回答
instead代わりに of committingコミットする tooあまりにも muchたくさん,
確かなところを答えるよう
教えています
11:53
justちょうど like好きな we我々 would〜する do行う,
ちょうど私たち自身がするように
11:57
butだけど otherその他 times our我々の computerコンピューター algorithmアルゴリズム
is remarkable顕著 at〜で telling伝える us米国
一方で何が写っているかについて
コンピュータアルゴリズムが
12:00
what exactly正確に theその objectsオブジェクト are,
驚くほど正確に
言い当てることもあります
12:05
like好きな theその make作る, modelモデル, year of theその cars.
たとえば自動車の車種や
モデルや年式のような
12:07
We我々 applied適用された thisこの algorithmアルゴリズム to millions何百万
of Googlegoogle Street通り View見る imagesイメージ
このアルゴリズムを
アメリカの数百都市の
12:10
across横断する hundreds数百 of Americanアメリカ人 cities都市,
何百万という
Googleストリートビュー画像に適用した結果
12:16
andそして we我々 have持ってる learned学んだ something何か
really本当に interesting面白い:
面白い発見がありました
12:19
first最初, itそれ confirmed確認済み our我々の common一般 wisdom知恵
まず 車の値段は
12:22
thatそれ car prices価格 correlate相関する very非常に wellよく
家計収入とよく相関しているという
12:25
with〜と household家庭 incomes収入.
予想が裏付けられました
12:28
Butだけど surprisingly驚くほど, car prices価格
alsoまた、 correlate相関する wellよく
でも驚いたことに
車の値段は
12:31
with〜と crime犯罪 rates料金 in cities都市,
街の犯罪率とも
よく相関していたんです
12:35
orまたは voting投票 patternsパターン by〜によって zipジップ codesコード.
それはまた郵便番号区域ごとの
投票傾向とも相関しています
12:39
Soそう wait待つ aa minute. Is thatそれ itそれ?
それでは コンピュータは
12:44
Has持っている theその computerコンピューター already既に matched一致する
orまたは even偶数 surpassed超越 human人間 capabilities能力?
既に人間の能力に追いつき
追い越しているのでしょうか?
12:46
Notない soそう fast速い.
結論を急がないで
12:51
Soそう far遠い, we我々 have持ってる justちょうど taught教えた
theその computerコンピューター to see見る objectsオブジェクト.
これまでのところ 私たちは
コンピュータに物の見方を教えただけです
12:53
Thisこの is like好きな aa small小さい child
learning学習 to utter発声する aa few少数 nouns名詞.
小さな子供が名詞をいくつか
言えるようになったようなものです
12:58
It'sそれは an incredible信じられない accomplishment達成,
ものすごい成果ですが
13:03
butだけど it'sそれは onlyのみ theその first最初 stepステップ.
まだ第一歩にすぎず
13:05
Soonすぐに, another別の developmental発達する
milestoneマイルストーン will意志 be〜する hitヒット,
次の開発目標があります
13:08
andそして children子供 beginベギン
to communicate通信する in sentences文章.
子供は文章でコミュニケーションを
するようになります
13:12
Soそう instead代わりに of saying言って
thisこの is aa catネコ in theその picture画像,
だから写真を見て小さな女の子が
単にネコと言わずに
13:15
you君は already既に heard聞いた theその little少し girl女の子
telling伝える us米国 thisこの is aa catネコ lying嘘つき on aa bedベッド.
ネコがベッドに座っていると
言うのを聞いたわけです
13:19
Soそう to teach教える aa computerコンピューター
to see見る aa picture画像 andそして generate生成する sentences文章,
コンピュータが写真を見て
文章を作れるよう教えるために
13:24
theその marriage結婚 betweenの間に big大きい dataデータ
andそして machine機械 learning学習 algorithmアルゴリズム
このビッグデータと
機械学習の結びつきが
13:30
has持っている to take取る another別の stepステップ.
新たなステップを
踏む必要があります
13:34
Now, theその computerコンピューター has持っている to learn学ぶ
fromから bothどちらも picturesピクチャー
コンピュータは
写真だけでなく
13:36
asとして wellよく asとして naturalナチュラル language言語 sentences文章
人が発する自然言語の文章も
13:40
generated生成された by〜によって humans人間.
学ぶ必要があります
13:43
Justちょうど like好きな theその brain integrates統合する
visionビジョン andそして language言語,
脳が視覚と言語を
結びつけるように
13:47
we我々 developed発展した aa modelモデル
thatそれ connects接続する parts部品 of visualビジュアル thingsもの
画像の断片のような
視覚的なものの一部と
13:50
like好きな visualビジュアル snippetsスニペット
文章の中の単語やフレーズを
繋ぎ合わせるモデルを
13:56
with〜と words言葉 andそして phrasesフレーズ in sentences文章.
私たちは開発しました
13:58
About four4つの months数ヶ月 ago,
4ヶ月ほど前
14:02
we我々 finally最後に tied結ばれた allすべて thisこの together一緒に
ついに私たちは
すべてをまとめ
14:04
andそして produced生産された one1 of theその first最初
computerコンピューター visionビジョン modelsモデル
初めて見た写真について
14:07
thatそれ is capable可能な of generating生成する
aa human-like人間のような sentence
人が書いたような
記述文を生成できる
14:11
whenいつ itそれ sees見える aa picture画像 forために theその first最初 time時間.
最初のコンピュータ・ビジョン・
モデルを作り上げました
14:15
Now, I'm私は ready準備完了 to showショー you君は
what theその computerコンピューター says言う
冒頭で小さな女の子が説明したのと
同じ写真を見て
14:18
whenいつ itそれ sees見える theその picture画像
そのコンピュータが何と言ったか
14:23
thatそれ theその little少し girl女の子 saw見た
at〜で theその beginning始まり of thisこの talkトーク.
お見せしましょう
14:25
(Videoビデオ) Computerコンピューター: Aa manおとこ is standing立っている
next to an elephant.
「ゾウの横に立っている男」
14:31
Aa large airplane飛行機 sitting座っている on top
of an airport空港 runway滑走路.
「空港の滑走路にいる大きな飛行機」
14:36
FFLffl: Of courseコース, we're私たちは stillまだ workingワーキング hardハード
to improve改善する our我々の algorithmsアルゴリズム,
私たちは今もアルゴリズムを改良しようと
熱心に取り組んでいて
14:41
andそして itそれ stillまだ has持っている aa lotロット to learn学ぶ.
学ぶべきことは
まだまだあります
14:45
(Applause拍手)
(拍手)
14:47
Andそして theその computerコンピューター stillまだ makes作る mistakes間違い.
コンピュータは
まだ間違いを犯します
14:51
(Videoビデオ) Computerコンピューター: Aa catネコ lying嘘つき
on aa bedベッド in aa blanket毛布.
「ベッドの上の毛布の中のネコ」
14:54
FFLffl: Soそう of courseコース, whenいつ itそれ sees見える
tooあまりにも manyたくさんの cats,
ネコを沢山見過ぎたせいで
14:58
itそれ thinks考える everythingすべて
mightかもしれない look見える like好きな aa catネコ.
何でもネコみたいに
見えるのかもしれません
15:00
(Videoビデオ) Computerコンピューター: Aa young若い boy男の子
is holdingホールディング aa baseball野球 batコウモリ.
「野球バットを持つ小さな男の子」
15:05
(Laughter笑い)
(笑)
15:08
FFLffl: Orまたは, ifif itそれ hasn't持っていない seen見た aa toothbrush歯ブラシ,
itそれ confuses混乱 itそれ with〜と aa baseball野球 batコウモリ.
歯ブラシを見たことがないと
野球バットと混同してしまいます
15:09
(Videoビデオ) Computerコンピューター: Aa manおとこ ridingライディング aa horseうま
downダウン aa street通り next to aa building建物.
「建物脇の道を馬に乗って行く男」
15:15
(Laughter笑い)
(笑)
15:18
FFLffl: We我々 haven't持っていない taught教えた Artアート 101
to theその computersコンピュータ.
美術はまだコンピュータに
教えていませんでした
15:20
(Videoビデオ) Computerコンピューター: Aa zebraシマウマ standing立っている
in aa fieldフィールド of grass.
「草原に立つシマウマ」
15:25
FFLffl: Andそして itそれ hasn't持っていない learned学んだ to appreciate感謝する
theその stunning見事な beauty美しさ of nature自然
私たちのように
自然の美を慈しむことは
15:28
like好きな you君は andそして I do行う.
まだ学んでいません
15:32
Soそう itそれ has持っている beenされている aa long長いです journey.
長い道のりでした
15:34
To get取得する fromから age年齢 zeroゼロ to three wasあった hardハード.
0歳から3歳まで行くのは
大変でした
15:37
Theその realリアル challengeチャレンジ is to go行く
fromから three to 13 andそして far遠い beyond超えて.
でも本当の挑戦は3歳から13歳
さらにその先へと行くことです
15:41
Let〜する me remind思い出させる you君は with〜と thisこの picture画像
of theその boy男の子 andそして theその cakeケーキ again再び.
あの男の子とケーキの写真を
もう一度見てみましょう
15:47
Soそう far遠い, we我々 have持ってる taught教えた
theその computerコンピューター to see見る objectsオブジェクト
私たちはコンピュータに
物を識別することを教え
15:51
orまたは even偶数 telltell us米国 aa simple単純 storyストーリー
whenいつ seeing見る aa picture画像.
写真を簡単に説明することさえ
教えました
15:55
(Videoビデオ) Computerコンピューター: Aa person sitting座っている
at〜で aa table with〜と aa cakeケーキ.
「ケーキのあるテーブルにつく人」
15:59
FFLffl: Butだけど there'sそこに soそう muchたくさん moreもっと
to thisこの picture画像
しかしこの写真には
単に人とケーキというよりも
16:03
thanより justちょうど aa person andそして aa cakeケーキ.
遙かに多くのものがあります
16:06
What theその computerコンピューター doesn'tしない see見る
is thatそれ thisこの is aa special特別 Italianイタリアの cakeケーキ
コンピュータが見なかったのは
このケーキが特別なイタリアのケーキで
16:08
that'sそれは onlyのみ servedサービスされた during Easterイースター time時間.
イースターの時に
食べるものだということです
16:12
Theその boy男の子 is wearing着る his favoriteお気に入り t-shirtTシャツ
男の子が着ているのは
お気に入りのTシャツで
16:16
given与えられた to him asとして aa gift贈り物 by〜によって his fatherお父さん
after aa trip旅行 to Sydneyシドニー,
お父さんがシドニー旅行の
おみやげにくれたものだということ
16:19
andそして you君は andそして I canできる allすべて telltell howどうやって happyハッピー he is
私たちはみんな
この男の子がどんなに喜んでいるか
16:23
andそして what's何ですか exactly正確に on his mindマインド
at〜で thatそれ moment瞬間.
何を思っているかが分かります
16:27
Thisこの is myじぶんの son息子 Leoレオ.
これは息子のレオです
16:31
On myじぶんの questクエスト forために visualビジュアル intelligenceインテリジェンス,
視覚的な知性を
追い求める探求の中で
16:34
I think思う of Leoレオ constantly常に
私はいつもレオのことや
16:36
andそして theその future未来 world世界 he will意志 liveライブ in.
レオが住むであろう
未来の世界のことを考えています
16:39
Whenいつ machines機械 canできる see見る,
機械に見ることが
できるようになれば
16:42
doctors医師 andそして nurses看護師 will意志 have持ってる
extra余分な pairsペア of tireless疲れない eyes
医師や看護師は疲れを知らない
別の目を手に入れて
16:44
to help助けて themそれら to diagnose診断する
andそして take取る careお手入れ of patients患者.
患者の診断や世話に
役立てられるでしょう
16:48
Cars will意志 run走る smarterスマートな
andそして saferより安全な on theその road道路.
自動車は道路をより賢明に
安全に走行するようになるでしょう
16:53
Robotsロボット, notない justちょうど humans人間,
人間だけでなくロボットも
16:57
will意志 help助けて us米国 to brave勇敢な theその disaster災害 zonesゾーン
to saveセーブ theその trappedトラップされた andそして wounded負傷した.
災害地域に取り残され負傷した人々を救出する
手助けができるようになるでしょう
17:00
We我々 will意志 discover発見する new新しい species,
betterより良い materials材料,
私たちは機械の助けを借りて
新種の生物やより優れた素材を発見し
17:05
andそして explore探検する unseen見えない frontiersフロンティア
with〜と theその help助けて of theその machines機械.
未だ見ぬフロンティアを
探検するようになるでしょう
17:09
Little少し by〜によって little少し, we're私たちは giving与える sight視力
to theその machines機械.
私たちは少しずつ機械に
視覚を与えています
17:15
First最初, we我々 teach教える themそれら to see見る.
最初に私たちが
機械に見ることを教え
17:19
Then次に, they彼ら help助けて us米国 to see見る betterより良い.
それから機械が より良く見られるよう
私たちを助けてくれることでしょう
17:22
Forために theその first最初 time時間, human人間 eyes
won't〜されません be〜する theその onlyのみ onesもの
歴史上初めて
人間以外の目が
17:24
pondering熟考 andそして exploring探検する our我々の world世界.
世界について考察し
探求するようになるのです
17:29
We我々 will意志 notない onlyのみ useつかいます theその machines機械
forために their彼らの intelligenceインテリジェンス,
私たちは機械の知性を
利用するだけでなく
17:31
we我々 will意志 alsoまた、 collaborate協力する with〜と themそれら
in ways方法 thatそれ we我々 cannotできない even偶数 imagine想像する.
想像もできないような方法で
機械と人間が協力し合うようになるでしょう
17:35
Thisこの is myじぶんの questクエスト:
私が追い求めているのは
17:41
to give与える computersコンピュータ visualビジュアル intelligenceインテリジェンス
コンピュータに視覚的な知性を与え
17:43
andそして to create作成する aa betterより良い future未来
forために Leoレオ andそして forために theその world世界.
レオや世界のために
より良い未来を作り出すということです
17:46
Thank感謝 you君は.
ありがとうございました
17:51
(Applause拍手)
(拍手)
17:53
Translated by Yasushi Aoki
Reviewed by Tadashi Koyama

▲Back to top

About the speaker:

Fei-Fei Li - Computer scientist
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.

Why you should listen

Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.

Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.

Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers

More profile about the speaker
Fei-Fei Li | Speaker | TED.com