English-Video.net comment policy

The comment field is common to all languages

Let's write in your language and use "Google Translate" together

Please refer to informative community guidelines on TED.com

TED2017

Joseph Redmon: How computers learn to recognize objects instantly

ジョセフ・レドモン: コンピューターはいかに物体を即座に認識できるようになったのか

Filmed
Views 1,303,993

10年前には研究者達はコンピューターで猫と犬を見分けるのはほとんど無理だと思っていました。今日では、コンピュータービジョンシステムにより99%以上の精度で行えるようになっています。どうやってでしょうか? ジョセフ・レドモンはオープンソースの物体検出システム YOLO (You Only Look Once) に取り組んでいて、シマウマから一時停止の標識まで、映像や画像の中の物体を瞬時に識別できるようにしています。この目を見張るようなデモで、レドモンは自動運転車やロボットやガンの検出といった応用に向けた重要なステップを披露しています。

- Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time. Full bio

Ten years ago,
10年前
00:12
computerコンピューター visionビジョン researchers研究者
thought思想 thatそれ getting取得 aa computerコンピューター
コンピュータービジョンの研究者は
00:14
to telltell theその difference
betweenの間に aa catネコ andそして aa dog
コンピューターで
犬と猫を見分けるのは
00:16
would〜する be〜する almostほぼ impossible不可能,
ほとんど無理だと
考えていました
00:19
even偶数 with〜と theその significant重要な advance前進
in theその state状態 of artificial人工的な intelligenceインテリジェンス.
人工知能の大きな
発展にもかかわらずです
00:21
Now we我々 canできる do行う itそれ at〜で aa levelレベル
greater大きい thanより 99 percentパーセント accuracy正確さ.
現在では99%以上の精度で
見分けられるようになっています
00:25
Thisこの is calledと呼ばれる image画像 classification分類 ---
これは「画像分類」と
呼ばれる問題で
00:29
give与える itそれ an image画像,
put置く aa labelラベル to thatそれ image画像 ---
コンピューターに画像の
ラベル付けをさせるものです
00:31
andそして computersコンピュータ know知っている
thousands of otherその他 categoriesカテゴリ asとして wellよく.
コンピューターは何千種もの物を
識別できるようになっています
00:34
I'm私は aa graduate卒業 student学生
at〜で theその University大学 of Washingtonワシントン,
私はワシントン大学の大学院生で
00:38
andそして I work作業 on aa projectプロジェクト calledと呼ばれる Darknetダークネット,
Darknetというプロジェクトに
取り組んでいます
00:41
whichどの is aa neuralニューラル networkネットワーク frameworkフレームワーク
コンピュータービジョンのモデルを
トレーニングしテストするための
00:43
forために trainingトレーニング andそして testingテスト
computerコンピューター visionビジョン modelsモデル.
ニューラルネット・フレームワークです
00:45
Soそう let'sさあ justちょうど see見る what Darknetダークネット thinks考える
Darknetが
あの犬の画像を
00:48
of thisこの image画像 thatそれ we我々 have持ってる.
何だと思うか
見てみましょう
00:51
Whenいつ we我々 run走る our我々の classifier分級機
あの画像を
00:54
on thisこの image画像,
私たちの画像分類
プログラムにかけると
00:56
we我々 see見る we我々 don'tしない justちょうど get取得する
aa prediction予測 of dog orまたは catネコ,
犬か猫かだけでなく
00:58
we我々 actually実際に get取得する
specific特定 breed繁殖 predictions予測.
具体的な犬種まで
言い当てます
01:00
That'sそれは theその levelレベル
of granularity細かい we我々 have持ってる now.
そこまで細かいことが
分かるようになっています
01:02
Andそして it'sそれは correct正しい.
そして正しい答えを出しています
[マラミュート犬 37% ハスキー犬 15% エスキモー犬 12%]
01:05
Myじぶんの dog is in fact事実 aa malamuteMalamute.
私の犬は確かにマラミュート犬です
[マラミュート犬 37% ハスキー犬 15% エスキモー犬 12%]
01:06
Soそう we've私たちは made amazing素晴らしい strides歩み
in image画像 classification分類,
画像分類は驚くほど
進歩しましたが
01:09
butだけど what happens起こる
whenいつ we我々 run走る our我々の classifier分級機
こういう複数の物が写った写真を
画像分類にかけたら
01:13
on an image画像 thatそれ looks外見 like好きな thisこの?
どうなるのでしょう?
01:15
Wellよく ...
結果は—
01:19
We我々 see見る thatそれ theその classifier分級機 comes来る backバック
with〜と aa prettyかなり similar類似 prediction予測.
前とほぼ同じになっています
[マラミュート犬 7% エスキモー犬 6% ハスキー犬 6%]
01:24
Andそして it'sそれは correct正しい,
thereそこ is aa malamuteMalamute in theその image画像,
それは正しくて 画像の中には
確かにマラミュート犬がいますが
01:28
butだけど justちょうど given与えられた thisこの labelラベル,
we我々 don'tしない actually実際に know知っている thatそれ muchたくさん
そのラベルだけでは
01:31
about what's何ですか going行く on in theその image画像.
この画像の中で どんなことが
起きているのか あまりわかりません
01:35
We我々 need必要 something何か moreもっと powerful強力な.
もっと強力なものが
ほしいところです
01:37
I work作業 on aa problem問題
calledと呼ばれる objectオブジェクト detection検出,
私は「物体検出」と呼ばれる
問題に取り組んでいて
01:39
whereどこで we我々 look見える at〜で an image画像
andそして tryお試しください to find見つける allすべて of theその objectsオブジェクト,
それは画像を見て
その中にある物体をすべて検出し
01:41
put置く boundingバウンディング boxesボックス aroundまわり themそれら
それぞれの物を箱で囲って
01:44
andそして sayいう what thoseそれら objectsオブジェクト are.
それが何か識別する
という問題です
01:46
Soそう here'sここにいる what happens起こる
whenいつ we我々 run走る aa detector検出器 on thisこの image画像.
この画像を物体検出プログラムにかけると
どうなるか見てみましょう
01:48
Now, with〜と thisこの kind種類 of result結果,
得られる結果は
こういうもので
01:53
we我々 canできる do行う aa lotロット moreもっと
with〜と our我々の computerコンピューター visionビジョン algorithmsアルゴリズム.
色んなことができます
01:55
We我々 see見る thatそれ itそれ knows知っている
thatそれ there'sそこに aa catネコ andそして aa dog.
猫と犬がいることがわかり
01:58
Itそれ knows知っている their彼らの relative相対 locations場所,
相対的な位置や
02:01
their彼らの sizeサイズ.
大きさもわかります
02:03
Itそれ mayかもしれない even偶数 know知っている some一部 extra余分な information情報.
おまけの情報もあります
02:04
There'sそこに aa book sitting座っている in theその backgroundバックグラウンド.
向こうに本があるとか
02:06
Andそして ifif you君は want欲しいです to buildビルドする aa systemシステム
on top of computerコンピューター visionビジョン,
コンピュータービジョンを
使ったシステム
02:09
sayいう aa self-driving自己運転 vehicle車両
orまたは aa roboticロボット systemシステム,
自動運転車や ロボットを
作ろうとするなら
02:12
thisこの is theその kind種類
of information情報 thatそれ you君は want欲しいです.
これはまさに
欲しい情報でしょう
02:16
You君は want欲しいです something何か soそう thatそれ
you君は canできる interact相互作用する with〜と theその physical物理的 world世界.
周りの世界と作用し合えるように
してくれるものが欲しいのです
02:18
Now, whenいつ I started開始した workingワーキング
on objectオブジェクト detection検出,
私が物体検出に
取り組み始めた頃は
02:22
itそれ took取った 20 seconds
to processプロセス aa singleシングル image画像.
1つの画像の処理に
20秒かかっていました
02:25
Andそして to get取得する aa feel感じる forために whyなぜ
speed速度 is soそう important重要 in thisこの domainドメイン,
この領域で なぜスピードが重要なのか
分かってもらうため
02:28
here'sここにいる an example of an objectオブジェクト detector検出器
物体検出で画像の処理に
2秒かかると どんな具合か
02:33
thatそれ takesテイク two seconds
to processプロセス an image画像.
見ていただきましょう
02:35
Soそう thisこの is 10 times fasterもっと早く
これは画像1つにつき20秒かかる
画像検出プログラムより
02:38
thanより theその 20-seconds-per-image秒あたりの画像 detector検出器,
10倍速いわけですが
02:40
andそして you君は canできる see見る thatそれ by〜によって theその time時間
itそれ makes作る predictions予測,
プログラムが答えを
出したときには
02:44
theその entire全体 state状態 of theその world世界 has持っている changedかわった,
状況は既に変わっているため
02:47
andそして thisこの wouldn'tしないだろう be〜する very非常に useful有用
あまりアプリケーションの役には
02:49
forために an application応用.
立ちません
02:52
Ifif we我々 speed速度 thisこの upアップ
by〜によって another別の factor因子 of 10,
さらに10倍
高速化してみましょう
02:53
thisこの is aa detector検出器 runningランニング
at〜で five framesフレーム per〜ごと second二番.
毎秒 5フレーム
処理しています
02:56
Thisこの is aa lotロット betterより良い,
だいぶマシにはなりましたが
02:59
butだけど forために example,
何か大きな動きがあると
03:00
ifif there'sそこに anyどれか significant重要な movement移動,
ズレが出ます
03:02
I wouldn'tしないだろう want欲しいです aa systemシステム
like好きな thisこの driving運転 myじぶんの car.
このようなシステムに
自分の車を運転して欲しくはありません
03:05
Thisこの is our我々の detection検出 systemシステム
runningランニング in realリアル time時間 on myじぶんの laptopラップトップ.
これは私たちの物体検出システムで
ノートPC上でリアルタイムで動いています
03:09
Soそう itそれ smoothlyスムーズに tracksトラック me
asとして I move動く aroundまわり theその frameフレーム,
私が動き回っても
スムーズに追尾します
03:13
andそして it'sそれは robustロバストな to aa wideワイド variety品種
of changes変更 in sizeサイズ,
様々な種類の変化にも対応できます
大きさとか
03:16
poseポーズ,
ポーズとか
03:21
forward前進, backward後方に.
前向き 後ろ向き
03:23
Thisこの is greatすばらしいです.
とてもいいです
03:25
Thisこの is what we我々 really本当に need必要
これこそコンピュータービジョンを
使ったシステムを作ろうというときに
03:26
ifif we're私たちは going行く to buildビルドする systemsシステム
on top of computerコンピューター visionビジョン.
欲しいものです
03:28
(Applause拍手)
(拍手)
03:31
Soそう in justちょうど aa few少数 years,
ほんの数年で
03:36
we've私たちは gone行った fromから 20 seconds per〜ごと image画像
1画像あたり20秒から
20ミリ秒へと
03:38
to 20 millisecondsミリ秒 per〜ごと image画像,
aa thousand times fasterもっと早く.
1000倍 高速化しました
03:41
Howどうやって didした we我々 get取得する thereそこ?
どうやって実現したのか?
03:44
Wellよく, in theその past過去,
objectオブジェクト detection検出 systemsシステム
以前の物体検出システムは
03:46
would〜する take取る an image画像 like好きな thisこの
このような画像を受け取ると
03:49
andそして splitスプリット itそれ into aa bunch of regions地域
沢山の領域に分割し
03:51
andそして then次に run走る aa classifier分級機
on each of theseこれら regions地域,
それぞれの領域を
分類プログラムにかけ
03:53
andそして high高い scores得点 forために thatそれ classifier分級機
高いスコアが出たところに
03:56
would〜する be〜する considered考慮される
detections検出 in theその image画像.
物体が検出されたと
見なしていました
03:59
Butだけど thisこの involved関係する runningランニング aa classifier分級機
thousands of times over以上 an image画像,
この方法だと1つの画像に対し
分類プログラムを何千回も走らせ
04:02
thousands of neuralニューラル networkネットワーク evaluations評価
to produce作物 detection検出.
ニューラルネットによる評価が
何千回も必要になります
04:06
Instead代わりに, we我々 trained訓練された aa singleシングル networkネットワーク
to do行う allすべて of detection検出 forために us米国.
そうする代わりに 1つのニューラルネットで
すべての検出を行うようトレーニングしました
04:11
Itそれ produces生産する allすべて of theその boundingバウンディング boxesボックス
andそして classクラス probabilities確率 simultaneously同時に.
境界の箱や 分類の確からしさの確率を
すべて同時に生成するのです
04:15
With〜と our我々の systemシステム, instead代わりに of looking探している
at〜で an image画像 thousands of times
我々のシステムでは
物体検出を行うために
04:20
to produce作物 detection検出,
画像を何千回も見る代わりに
04:24
you君は onlyのみ look見える once一度,
たった一度しか見ないのです
04:25
andそして that'sそれは whyなぜ we我々 callコール itそれ
theその YOLOイエロー method方法 of objectオブジェクト detection検出.
それがYOLO (You Only Look Once)の
名の所以です
04:26
Soそう with〜と thisこの speed速度,
we're私たちは notない justちょうど limited限られた to imagesイメージ;
これだけ速いと 画像だけでなく
04:31
we我々 canできる processプロセス videoビデオ in realリアル time時間.
映像もリアルタイムで処理できます
04:35
Andそして now, instead代わりに of justちょうど seeing見る
thatそれ catネコ andそして dog,
猫と犬を検出するだけでなく
04:37
we我々 canできる see見る themそれら move動く aroundまわり
andそして interact相互作用する with〜と each otherその他.
それぞれが動き回り
相手に反応しているのが分かります
04:40
Thisこの is aa detector検出器 thatそれ we我々 trained訓練された
この検出プログラムは
04:46
on 80 different異なる classesクラス
MicrosoftのCOCOデータセットにある
80種の物に対して
04:48
in Microsoft'sマイクロソフト COCOココ datasetデータセット.
トレーニングしてあります
04:53
Itそれ has持っている allすべて sortsソート of thingsもの
like好きな spoonスプーン andそして forkフォーク, bowlボウル,
スプーンやフォークといった
04:56
common一般 objectsオブジェクト like好きな thatそれ.
日常的な物もあれば
04:59
Itそれ has持っている aa variety品種 of moreもっと exoticエキゾチック thingsもの:
もっと変わった物もあります
05:02
animals動物, cars, zebrasシマウマ, giraffesキリン.
動物 車 シマウマ キリン
05:05
Andそして now we're私たちは going行く to do行う something何か fun楽しい.
ちょっと面白いことをやりましょう
05:08
We're私たちは justちょうど going行く to go行く
outでる into theその audience聴衆
客席からどんなものが
検出できるか
05:10
andそして see見る what kind種類 of thingsもの we我々 canできる detect検出する.
試してみます
05:12
Doesする anyone誰でも want欲しいです aa stuffedつめた animal動物?
ぬいぐるみの動物が欲しい人?
05:14
Thereそこ are some一部 teddyテディ bearsクマ outでる thereそこ.
そこかしこに
テディベアがあります
05:18
Andそして we我々 canできる turn順番 downダウン
our我々の threshold閾値 forために detection検出 aa little少し bitビット,
検出器の閾値を少し下げて
05:22
soそう we我々 canできる find見つける moreもっと of you君は guysみんな
outでる in theその audience聴衆.
客席の皆さんを
検出できるようにしましょう
05:26
Let'sさあ see見る ifif we我々 canできる get取得する theseこれら stopやめる signs兆候.
「一時停止」の標識を
検出できるでしょうか
05:31
We我々 find見つける some一部 backpacksバックパック.
バックパックが
いくつかありますね
05:33
Let'sさあ justちょうど zoomズーム in aa little少し bitビット.
もう少しズームしましょう
05:37
Andそして thisこの is greatすばらしいです.
素晴らしいです
05:42
Andそして allすべて of theその processing処理
is happeningハプニング in realリアル time時間
すべての処理が
ノートPC上で
05:43
on theその laptopラップトップ.
リアルタイムで
実行されています
05:46
Andそして it'sそれは important重要 to remember思い出す
重要なのはこれが
05:49
thatそれ thisこの is aa general一般 purpose目的
objectオブジェクト detection検出 systemシステム,
汎用物体検出システム
だということで
05:50
soそう we我々 canできる train列車 thisこの forために anyどれか image画像 domainドメイン.
どのような領域の画像に対しても
トレーニングできます
05:53
Theその same同じ codeコード thatそれ we我々 useつかいます
自動運転車が
06:00
to find見つける stopやめる signs兆候 orまたは pedestrians歩行者,
一時停止の標識や歩行者や
自転車を検知するのに使うのと
06:02
bicycles自転車 in aa self-driving自己運転 vehicle車両,
同じプログラムを
06:05
canできる be〜する used中古 to find見つける cancer cells細胞
組織生検でガンを
見つけるためにも
06:07
in aa tissue組織 biopsy生検.
使えるのです
06:10
Andそして thereそこ are researchers研究者 aroundまわり theその globeグローブ
already既に usingを使用して thisこの technology技術
すでに世界中の研究者達が
この技術を使って
06:13
forために advances進歩 in thingsもの
like好きな medicine医学, roboticsロボット工学.
医学やロボット工学を
前進させています
06:18
Thisこの morning, I read読む aa paper
今朝 新聞で読んだんですが
06:21
whereどこで they彼ら wereあった taking取る aa census国勢調査
of animals動物 in Nairobiナイロビ National全国 Parkパーク
ナイロビ国立公園では
YOLOを検出システムとして使って
06:23
with〜と YOLOイエロー asとして part
of thisこの detection検出 systemシステム.
動物の個体数調査を
しているそうです
06:27
Andそして that'sそれは becauseなぜなら Darknetダークネット is open開いた sourceソース
それというのもDarknetはオープンソースで
パブリックドメインなため
06:30
andそして in theその publicパブリック domainドメイン,
free無料 forために anyone誰でも to useつかいます.
誰でも無料で使えるからです
06:33
(Applause拍手)
(拍手)
06:37
Butだけど we我々 wanted欲しい to make作る detection検出
even偶数 moreもっと accessibleアクセス可能な andそして usable使用可能な,
私たちは物体検出技術をさらに近づきやすく
使いやすいものにしたいと思い
06:43
soそう throughを通して aa combination組み合わせ
of modelモデル optimization最適化,
モデルの最適化や
ネットワーク・バイナリぜーション
06:48
networkネットワーク binarization2値化 andそして approximation近似,
近似を組み合わせることで
06:52
we我々 actually実際に have持ってる objectオブジェクト detection検出
runningランニング on aa phone電話.
スマートフォン上で
動かせるようにしました
06:54
(Applause拍手)
(拍手)
07:04
Andそして I'm私は really本当に excited興奮した becauseなぜなら
now we我々 have持ってる aa prettyかなり powerful強力な solution溶液
私はすごくワクワクしています
07:10
to thisこの low-level低レベル computerコンピューター visionビジョン problem問題,
いまやこの基本的なコンピュータービジョンの
問題に対して とても強力な解があり
07:16
andそして anyone誰でも canできる take取る itそれ
andそして buildビルドする something何か with〜と itそれ.
誰でもそれを使って
何か作り出すことができるんです
07:18
Soそう now theその rest残り is upアップ to allすべて of you君は
あとは皆さんや
07:22
andそして people aroundまわり theその world世界
with〜と accessアクセス to thisこの softwareソフトウェア,
このソフトウェアを使える
世界中の人々にかかっています
07:25
andそして I can'tできない wait待つ to see見る what people
will意志 buildビルドする with〜と thisこの technology技術.
この技術を使ってみんなが
どんなものを作ってくれるか楽しみです
07:28
Thank感謝 you君は.
ありがとうございました
07:32
(Applause拍手)
(拍手)
07:33
Translated by Yasushi Aoki
Reviewed by Claire Ghyselen

▲Back to top

About the speaker:

Joseph Redmon - Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time.

Why you should listen

Computer scientist Joseph Redmon is working on the YOLO (You Only Look Once) algorithm, which has a simple goal: to deliver image recognition and object detection at a speed that would seem science-fictional only a few years ago. The algorithm looks like the simple face detection of a camera app but with the level complexity of systems like Google's Deep Mind Cloud Vision, using Convolutional Deep Neural Networks to crunch object detection in realtime. It's the kind of technology that will be embedded on all smartphones in the next few years.

Redmon is also internet-famous for his resume.

More profile about the speaker
Joseph Redmon | Speaker | TED.com