ABOUT THE SPEAKER
Mona Chalabi - Data journalist
Mona Chalabi tries to take the numb out of numbers. She's left with lots of "ers."

Why you should listen

After working for a humanitarian organisation, Mona Chalabi saw how important data was, but also how easily it could be used by people with their own specific agendas. Since then, her work for organizations like Transparency International and The Guardian has had one goal: to make sure as many people as possible can find and question the data they need to make informed decisions about their lives.

Chalabi is currently the Data Editor of the Guardian US, where she writes articles, produces documentaries and turns data into illustrations and animations. In 2016, her data illustrations were commended by the Royal Statistical Society.

More profile about the speaker
Mona Chalabi | Speaker | TED.com
TEDNYC

Mona Chalabi: 3 ways to spot a bad statistic

莫娜 查拉比: 甄别不可信统计数据的3种方法

Filmed:
1,888,599 views

有时候很难知道哪些统计数字是可信的,但我们也不能完全忽略这些数据……正相反,我们要学会看到这些统计数字背后的东西。在这场愉轻松、有趣的演讲中,数据记者(data journalist)莫娜 查拉比分享了几点实用的建议,它将帮助你质疑、解释并且真正理解这些统计数字的含义。
- Data journalist
Mona Chalabi tries to take the numb out of numbers. She's left with lots of "ers." Full bio

Double-click the English transcript below to play the video.

00:12
Now, I'm going to be talking
about statistics统计 today今天.
0
884
2763
今天我想讲一下统计学。
如果你马上有所警觉,没关系,
00:15
If that makes品牌 you immediately立即 feel
a little bit wary警惕, that's OK,
1
3671
3138
00:18
that doesn't make you some
kind of crazy conspiracy阴谋 theorist理论家,
2
6833
2859
我不会让你变成那种
疯狂的阴谋论者,
00:21
it makes品牌 you skeptical怀疑的.
3
9716
1296
只会让你学会质疑。
尤其是现在,说到数字、数据,
你应该时刻保持怀疑态度。
00:23
And when it comes to numbers数字,
especially特别 now, you should be skeptical怀疑的.
4
11036
3886
00:26
But you should also be able能够 to tell
which哪一个 numbers数字 are reliable可靠
5
14946
3011
但你需要能够辨别哪些数字是可信的,
00:29
and which哪一个 ones那些 aren't.
6
17981
1160
哪些存在问题。
因此为了让你们具有这种甄别能力,
我会试着提供一些方法。
00:31
So today今天 I want to try to give you
some tools工具 to be able能够 to do that.
7
19165
3206
00:34
But before I do,
8
22395
1169
但在我开始之前,
00:35
I just want to clarify澄清 which哪一个 numbers数字
I'm talking about here.
9
23588
2839
我想说明我所说的统计
数据是什么类型的。
我讨论的并不是这种广告:
00:38
I'm not talking about claims索赔 like,
10
26451
1635
“10个女人中有9个
会推荐这款抗衰老乳霜。”
00:40
"9 out of 10 women妇女 recommend推荐
this anti-aging抗衰老 cream奶油."
11
28110
2449
我想我们中很多人对
这样的数字不以为然。
00:42
I think a lot of us always
roll our eyes眼睛 at numbers数字 like that.
12
30583
2972
但不同的是,现在人们对这样的
数字也开始抱有怀疑:
00:45
What's different不同 now is people
are questioning疑问 statistics统计 like,
13
33579
2984
“美国的失业率是 5%。”
00:48
"The US unemployment失业
rate is five percent百分."
14
36587
2014
这个数字不是出于一个私人公司,
00:50
What makes品牌 this claim要求 different不同 is
it doesn't come from a private私人的 company公司,
15
38625
3516
而是来自政府。
00:54
it comes from the government政府.
16
42165
1388
事实上,如今10个美国人中差不多有4个
不相信政府公布的
00:55
About 4 out of 10 Americans美国人
distrust怀疑 the economic经济 data数据
17
43577
3336
那些经济数据。
00:58
that gets得到 reported报道 by government政府.
18
46937
1573
01:00
Among其中 supporters支持者 of President主席 Trump王牌
it's even higher更高;
19
48534
2491
在特朗普总统的支持者中,情况更糟,
10人中有7人不相信那些数据。
01:03
it's about 7 out of 10.
20
51049
1633
01:04
I don't need to tell anyone任何人 here
21
52706
1804
无须我告诉大家,
01:06
that there are a lot of dividing lines线
in our society社会 right now,
22
54534
3011
当今我们的社会中
划分了许多的分界线,
01:09
and a lot of them start开始 to make sense,
23
57569
1825
一旦你明白“人”和那些“政府数据”
之间的关系,这些分界线中的
大多数就不言自明了。
01:11
once一旦 you understand理解 people's人们 relationships关系
with these government政府 numbers数字.
24
59418
3687
01:15
On the one hand, there are those who say
these statistics统计 are crucial关键,
25
63129
3336
一方面,有些人说,
这些统计数据很重要,
01:18
that we need them to make sense
of society社会 as a whole整个
26
66489
2630
我们需要它们来理解整个社会,
01:21
in order订购 to move移动 beyond
emotional情绪化 anecdotes轶事
27
69143
2164
进而脱离情感喜好、偏见等,
01:23
and measure测量 progress进展 in a subjective主观 way.
28
71331
2410
以一种客观的方式衡量发展程度。
01:25
And then there are the others其他,
29
73765
1467
正相反,另一方面,有一些人说
01:27
who say that these statistics统计 are elitist精英,
30
75256
2156
这些数据隶属于精英统治,
01:29
maybe even rigged非法操纵的;
31
77436
1208
它们甚至有可能是被操纵的;
它们没什么意义,也不能真正反映
01:30
they don't make sense
and they don't really reflect反映
32
78668
2394
人们的日常生活中发生了什么。
01:33
what's happening事件
in people's人们 everyday每天 lives生活.
33
81086
2296
现在看来,似乎是第二种人
在这两个阵营的针锋相对中获得了胜利。
01:35
It kind of feels感觉 like that second第二 group
is winning胜利 the argument论据 right now.
34
83406
3487
我们所生活的世界里,
胡说八道已成常态,
01:38
We're living活的 in a world世界
of alternative替代 facts事实,
35
86917
2108
人们对统计数据不能达成共识,
01:41
where people don't find statistics统计
this kind of common共同 ground地面,
36
89049
2935
也不会把数据作为争论时的出发点。
01:44
this starting开始 point for debate辩论.
37
92008
1636
这是一个问题。
01:45
This is a problem问题.
38
93668
1286
01:46
There are actually其实
moves移动 in the US right now
39
94978
2067
如今在美国,人们有一个举措是
完全丢弃政府的某项统计数据。
01:49
to get rid摆脱 of some government政府
statistics统计 altogether.
40
97069
2861
现在,国会有一项关于
衡量种族不平等程度的议案。
01:51
Right now there's a bill法案 in congress国会
about measuring测量 racial种族 inequality不等式.
41
99954
3387
草案规定,政府资金不能被用在
01:55
The draft草案 law says that government政府
money should not be used
42
103365
2801
搜集关于种族隔离的数据上。
01:58
to collect搜集 data数据 on racial种族 segregation隔离.
43
106190
1902
这完全是一场灾难。
02:00
This is a total disaster灾害.
44
108116
1885
如果我们没有相关数据,
02:02
If we don't have this data数据,
45
110025
1748
我们怎样观察种族歧视现象,
02:03
how can we observe discrimination区别,
46
111797
1778
更不要说解决它了?
02:05
let alone单独 fix固定 it?
47
113599
1278
换句话说:
02:06
In other words:
48
114901
1188
如果政府都不能衡量
如今的种族不平等程度,
02:08
How can a government政府 create创建 fair公平 policies政策
49
116113
2059
那他们又如何制定合理的政策呢?
02:10
if they can't measure测量
current当前 levels水平 of unfairness不平?
50
118196
2771
不只是在种族歧视方面,
02:12
This isn't just about discrimination区别,
51
120991
1794
还包括其他方面——
想一想吧,
02:14
it's everything -- think about it.
52
122809
1670
如果我们没有关于医疗健康
02:16
How can we legislate立法 on health健康 care关心
53
124503
1690
以及贫穷问题的可靠数据,
要如何为医疗保健问题立法?
02:18
if we don't have good data数据
on health健康 or poverty贫穷?
54
126217
2271
如果我们甚至对进入或离开
这个国家的人数都无法达成共识,
02:20
How can we have public上市 debate辩论
about immigration移民
55
128512
2198
02:22
if we can't at least最小 agree同意
56
130734
1250
我们又如何
02:24
on how many许多 people are entering进入
and leaving离开 the country国家?
57
132008
2643
关于移民问题进行公众讨论?
“统计”(statistics)来自于
“国家事务”(state),是它的词源所在。
02:26
Statistics统计 come from the state;
that's where they got their name名称.
58
134675
3058
它的重点在于更准确地衡量人口
02:29
The point was to better
measure测量 the population人口
59
137757
2157
来更好地造福于人民。
02:31
in order订购 to better serve服务 it.
60
139938
1357
所以我们需要这些政府数据,
02:33
So we need these government政府 numbers数字,
61
141319
1725
但我们也不能盲目接受
02:35
but we also have to move移动
beyond either blindly盲目地 accepting验收
62
143068
2647
或者盲目排斥它们。
02:37
or blindly盲目地 rejecting拒绝 them.
63
145739
1268
我们需要学会甄别不可信的数据。
02:39
We need to learn学习 the skills技能
to be able能够 to spot bad statistics统计.
64
147031
2997
当我在统计部门工作时——
02:42
I started开始 to learn学习 some of these
65
150052
1528
它是联合国的一部分,
02:43
when I was working加工
in a statistical统计 department
66
151604
2166
我开始学会了一些甄别的技巧。
02:45
that's part部分 of the United联合的 Nations国家.
67
153794
1643
我们的工作是弄清楚
有多少伊拉克人是因为战争
02:47
Our job工作 was to find out how many许多 Iraqis伊拉克人
had been forced被迫 from their homes家园
68
155461
3406
而被迫离家,
02:50
as a result结果 of the war战争,
69
158891
1158
以及他们需要什么。
02:52
and what they needed需要.
70
160073
1158
这的确是一项非常重要的工作,
但其难度也让人难以置信。
02:53
It was really important重要 work,
but it was also incredibly令人难以置信 difficult.
71
161255
3178
每一天,我们都在做出
02:56
Every一切 single day, we were making制造 decisions决定
72
164457
2018
会影响我们统计数据精确度的决定——
02:58
that affected受影响 the accuracy准确性
of our numbers数字 --
73
166499
2157
决定我们应该去
这个国家的哪一块区域调查,
03:00
decisions决定 like which哪一个 parts部分
of the country国家 we should go to,
74
168680
2744
和哪种人交谈,
03:03
who we should speak说话 to,
75
171448
1156
我们应该询问他们什么问题。
03:04
which哪一个 questions问题 we should ask.
76
172628
1568
我开始对我们的工作感到失望,
03:06
And I started开始 to feel
really disillusioned幻灭 with our work,
77
174220
2680
因为我们以为我们的
工作非常棒、很有意义,
03:08
because we thought we were doing
a really good job工作,
78
176924
2518
但是真正能告诉我们
实情的是那些伊拉克人,
03:11
but the one group of people
who could really tell us were the Iraqis伊拉克人,
79
179466
3278
他们却很难有机会看到我们的
分析结果,更别提质疑它了。
03:14
and they rarely很少 got the chance机会 to find
our analysis分析, let alone单独 question it.
80
182768
3540
所以我开始坚信,
03:18
So I started开始 to feel really determined决心
81
186332
1831
能让数据更加精确可信的一种方法,
03:20
that the one way to make
numbers数字 more accurate准确
82
188187
2311
就是让尽可能多的人能够去质疑它。
03:22
is to have as many许多 people as possible可能
be able能够 to question them.
83
190522
3053
所以我成为了一名“数据记者”。
03:25
So I became成为 a data数据 journalist记者.
84
193599
1434
我的工作是找到这些数据集,
并且向公众发布。
03:27
My job工作 is finding发现 these data数据 sets
and sharing分享 them with the public上市.
85
195057
3904
任何人都可以做到这件事;
你无须是一个极客或者老手。
03:30
Anyone任何人 can do this,
you don't have to be a geek极客 or a nerd书呆子.
86
198985
3173
你可以忽视那些术语;
那些想要表现得很聪明
03:34
You can ignore忽视 those words;
they're used by people
87
202182
2355
又假装谦虚的人才喜欢这些专业词汇。
03:36
trying to say they're smart聪明
while pretending假装 they're humble谦卑.
88
204561
2822
毫无疑问任何人都能做到这些事。
03:39
Absolutely绝对 anyone任何人 can do this.
89
207407
1589
我想向你们提出3个问题,
03:41
I want to give you guys three questions问题
90
209020
2067
会帮助你甄别那些不可靠的数据。
03:43
that will help you be able能够 to spot
some bad statistics统计.
91
211111
3005
那么第一个问题是:
你能看到不确定性吗?
03:46
So, question number one
is: Can you see uncertainty不确定?
92
214140
3507
有一件事真正改变了
人们和数据的关系,
03:49
One of things that's really changed
people's人们 relationship关系 with numbers数字,
93
217671
3364
甚至改变了人们对媒体的信任,
03:53
and even their trust相信 in the media媒体,
94
221059
1641
那就是政治上的民意调查的滥用。
03:54
has been the use of political政治 polls民意调查.
95
222724
2258
我个人对政治民意调查颇有微词,
03:57
I personally亲自 have a lot of issues问题
with political政治 polls民意调查
96
225006
2538
因为我认为,记者的任务就是
原原本本地报道事实,
03:59
because I think the role角色 of journalists记者
is actually其实 to report报告 the facts事实
97
227568
3376
而不应该尝试去预测什么,
04:02
and not attempt尝试 to predict预测 them,
98
230968
1553
尤其是当这些“预测”
实际上会有损民主的时候,
04:04
especially特别 when those predictions预测
can actually其实 damage损伤 democracy民主
99
232545
2996
它向人们示意:
不用费心给那个家伙投票了,
04:07
by signaling发信号 to people:
don't bother to vote投票 for that guy,
100
235565
2732
他是没机会入选的。
04:10
he doesn't have a chance机会.
101
238321
1205
我们把这事先搁到一边,
来谈谈这种做法的精确度如何。
04:11
Let's set that aside在旁边 for now and talk
about the accuracy准确性 of this endeavor努力.
102
239550
3654
根据英国、意大利、
以色列的国家选举情况,
04:15
Based基于 on national国民 elections选举
in the UK联合王国, Italy意大利, Israel以色列
103
243228
4608
当然,还有近期的
美国总统选举情况,
04:19
and of course课程, the most recent最近
US presidential总统 election选举,
104
247860
2764
它们都表明:使用民意
调查来预测选举结果
04:22
using运用 polls民意调查 to predict预测 electoral outcomes结果
105
250648
2137
无异于夜观天象来预测是否
住院——都是不可靠的。
04:24
is about as accurate准确 as using运用 the moon月亮
to predict预测 hospital醫院 admissions招生.
106
252809
3812
说真的,我用一份学术研究中的
真实数据画出了这幅图。
04:28
No, seriously认真地, I used actual实际 data数据
from an academic学术的 study研究 to draw this.
107
256645
4200
民意调查变得如此不准确
是有很多原因的。
04:32
There are a lot of reasons原因 why
polling轮询 has become成为 so inaccurate不准确.
108
260869
3727
我们的社会已经变得相当多元化,
04:36
Our societies社会 have become成为 really diverse多种,
109
264620
1970
这使得民意调查者很难在
人群中为他们的调查得到一份
04:38
which哪一个 makes品牌 it difficult for pollsters民意调查机构
to get a really nice不错 representative代表 sample样品
110
266614
3821
不错的、有代表性的样本。
04:42
of the population人口 for their polls民意调查.
111
270459
1627
人们不是很情愿地
回答民意调查电话,
04:44
People are really reluctant不情愿 to answer回答
their phones手机 to pollsters民意调查机构,
112
272110
3006
另外,令人震惊的是,
人们可能会说谎。
04:47
and also, shockingly令人吃惊 enough足够,
people might威力 lie谎言.
113
275140
2276
但在媒体的报道中,你不一定会
看到并了解这些过程。
04:49
But you wouldn't不会 necessarily一定
know that to look at the media媒体.
114
277440
2811
例如,希拉里 · 克林顿
赢得选举的可能性
04:52
For one thing, the probability可能性
of a Hillary希拉里 Clinton克林顿 win赢得
115
280275
2761
在媒体的报道中精确到了小数点。
04:55
was communicated传达 with decimal十进制 places地方.
116
283060
2791
我们描述气温都不会这么精确。
04:57
We don't use decimal十进制 places地方
to describe描述 the temperature温度.
117
285875
2621
所以,对这个国家里的
2亿3千万选民的行为的预测,
05:00
How on earth地球 can predicting预测 the behavior行为
of 230 million百万 voters选民 in this country国家
118
288520
4228
怎么可能会如此精确?
05:04
be that precise精确?
119
292772
1829
另外,还有一些美观的图表。
05:06
And then there were those sleek光滑 charts图表.
120
294625
2002
05:08
See, a lot of data数据 visualizations可视化
will overstate夸大 certainty肯定, and it works作品 --
121
296651
3973
知道吗,很多数据可视化的方法会
夸大数据的准确性,而且很有效——
这些图表会麻痹我们的大脑,
让我们无法对其准确性生疑。
05:12
these charts图表 can numb麻木
our brains大脑 to criticism批评.
122
300648
2620
当你听到一项统计数据,
你或许会怀疑。
05:15
When you hear a statistic统计,
you might威力 feel skeptical怀疑的.
123
303292
2558
但当它整合进了图表中,
05:17
As soon不久 as it's buried隐藏 in a chart图表,
124
305874
1635
它看起来仿佛就成了客观的科学,
05:19
it feels感觉 like some kind
of objective目的 science科学,
125
307533
2129
但实际上正好相反。
05:21
and it's not.
126
309686
1249
所以我试着找出一些方法
来告诉人们这些数据背后的事实,
05:22
So I was trying to find ways方法
to better communicate通信 this to people,
127
310959
3103
为人们展示这些数据的不确定性。
05:26
to show显示 people the uncertainty不确定
in our numbers数字.
128
314086
2504
我所做的,就是先采集数据,
05:28
What I did was I started开始 taking服用
real真实 data数据 sets,
129
316614
2246
然后把它们转换为手绘的示意图,
05:30
and turning车削 them into
hand-drawn手绘 visualizations可视化,
130
318884
2652
所以人们可以看到
这些数据的不精确性;
05:33
so that people can see
how imprecise不精确 the data数据 is;
131
321560
2672
可以看到这份图表是人画出来的,
05:36
so people can see that a human人的 did this,
132
324256
1996
有人搜集数据并把它可视化了。
05:38
a human人的 found发现 the data数据 and visualized可视化 it.
133
326276
1972
例如,我们不去计算出每个月
05:40
For example, instead代替
of finding发现 out the probability可能性
134
328272
2672
可能患流感的概率,
05:42
of getting得到 the flu流感 in any given特定 month,
135
330968
2126
但我们可以得到流感
在每个季节的大致分布。
05:45
you can see the rough
distribution分配 of flu流感 season季节.
136
333118
2792
这就是——
05:47
This is --
137
335934
1167
(笑声)
现在就是二月,展示
这张图不是很合适。
05:49
(Laughter笑声)
138
337125
1018
05:50
a bad shot射击 to show显示 in February二月.
139
338167
1486
但这是更加负责任的数据可视图表,
05:51
But it's also more responsible主管
data数据 visualization可视化,
140
339677
2455
因为,你如果在这张图中
展示了精确的概率,
05:54
because if you were to show显示
the exact精确 probabilities概率,
141
342156
2455
那么它就有可能鼓励人们
在不合适的时间段
05:56
maybe that would encourage鼓励
people to get their flu流感 jabs刺戳
142
344635
2592
接种流感疫苗。
05:59
at the wrong错误 time.
143
347251
1456
06:01
The point of these shaky摇摇欲坠 lines线
144
349163
1693
这些摇摇晃晃的线条
06:02
is so that people remember记得
these imprecisions不精确,
145
350880
2911
是想向人们说明
这些数据的不精确性,
它也不会让人们简单地
得到一个鸡肋的具体数字,
06:05
but also so they don't necessarily一定
walk步行 away with a specific具体 number,
146
353815
3227
而是让他们记住重要的事实。
06:09
but they can remember记得 important重要 facts事实.
147
357066
1866
不公正、不平等这样的事实
给我们的生活带来了巨大的影响。
06:10
Facts事实 like injustice不公正 and inequality不等式
leave离开 a huge巨大 mark标记 on our lives生活.
148
358956
4024
“美国黑人以及原住民的预期寿命
比其他种族的人短一些”,
06:15
Facts事实 like Black黑色 Americans美国人 and Native本地人
Americans美国人 have shorter life expectancies的预期
149
363004
4189
这样的事实,
06:19
than those of other races比赛,
150
367217
1400
短时间内也难以改变。
06:20
and that isn't changing改变 anytime任何时候 soon不久.
151
368641
2138
还包括“美国监狱中被单独监禁的
囚犯的活动空间
06:22
Facts事实 like prisoners囚犯 in the US
can be kept不停 in solitary confinement坐月子 cells细胞
152
370803
3901
比起一般的停车位面积还要小”
这样的事实。
06:26
that are smaller than the size尺寸
of an average平均 parking停車處 space空间.
153
374728
3342
06:30
The point of these visualizations可视化
is also to remind提醒 people
154
378535
3335
这些数据可视化的
意义也在于提醒人们
06:33
of some really important重要
statistical统计 concepts概念,
155
381894
2350
一些极其重要的统计概念,
例如“平均”的概念。
06:36
concepts概念 like averages均线.
156
384268
1636
比方说你听到了这样一句话:
06:37
So let's say you hear a claim要求 like,
157
385928
1668
“在美国,一般大小的游泳池
平均含有6.23次大便。”
06:39
"The average平均 swimming游泳的 pool in the US
contains包含 6.23 fecal粪便 accidents事故."
158
387620
4434
这并不意味着这个
国家里每一座游泳池
06:44
That doesn't mean every一切 single
swimming游泳的 pool in the country国家
159
392078
2797
刚好有6.23次大便。
06:46
contains包含 exactly究竟 6.23 turdsturds.
160
394899
2194
所以为了展示这一点,
06:49
So in order订购 to show显示 that,
161
397117
1417
我找到疾病预防控制
中心的原始数据,
06:50
I went back to the original原版的 data数据,
which哪一个 comes from the CDCCDC,
162
398558
2841
他们调查了47座游泳池。
06:53
who surveyed调查 47 swimming游泳的 facilities设备.
163
401423
2065
我花了一个晚上
“重新分配这些大便”。
06:55
And I just spent花费 one evening晚间
redistributing重新分配 poop船尾.
164
403512
2391
所以你可以看到,
“平均”是多么误导人。
06:57
So you can kind of see
how misleading误导 averages均线 can be.
165
405927
2682
(笑声)
07:00
(Laughter笑声)
166
408633
1282
07:01
OK, so the second第二 question
that you guys should be asking yourselves你自己
167
409939
3901
好,第二个问题,
你们在甄别数据时
应当反问自己的是:
07:05
to spot bad numbers数字 is:
168
413864
1501
我能在这些数据中
看到自己的身影吗?
07:07
Can I see myself in the data数据?
169
415389
1967
这个问题在某种程度上
也是关于“平均”的,
07:09
This question is also
about averages均线 in a way,
170
417380
2913
因为,人们对政府
公布的数据感到失望的
07:12
because part部分 of the reason原因
why people are so frustrated受挫
171
420317
2605
一部分原因就是,
07:14
with these national国民 statistics统计,
172
422946
1495
他们无法分清,在国家政策下
07:16
is they don't really tell the story故事
of who's谁是 winning胜利 and who's谁是 losing失去
173
424465
3273
谁损失、谁获益。
07:19
from national国民 policy政策.
174
427762
1156
很容易理解为什么当人们发现
自己的个人经验与全球平均数据
07:20
It's easy简单 to understand理解 why people
are frustrated受挫 with global全球 averages均线
175
428942
3318
不相符时,他们会感到非常失望。
07:24
when they don't match比赛 up
with their personal个人 experiences经验.
176
432284
2679
我想为人们展示:数据是如何
与他们的日常生活相关联的。
07:26
I wanted to show显示 people the way
data数据 relates涉及 to their everyday每天 lives生活.
177
434987
3263
我开设了一个咨询专栏,
叫做《亲爱的Mona》,
07:30
I started开始 this advice忠告 column
called "Dear Mona莫娜,"
178
438274
2246
人们会写信询问
他们所关心的事情,
07:32
where people would write to me
with questions问题 and concerns关注
179
440544
2726
而我会尝试借着数据回答他们。
07:35
and I'd try to answer回答 them with data数据.
180
443294
1784
这些问题包罗万象,
07:37
People asked me anything.
181
445102
1200
例如,“和老婆分床睡是正常的吗?”
07:38
questions问题 like, "Is it normal正常 to sleep睡觉
in a separate分离 bed to my wife妻子?"
182
446326
3261
“人们会为身上的刺青感到后悔吗?”
07:41
"Do people regret后悔 their tattoos纹身?"
183
449611
1591
“什么是‘自然死亡’?”
07:43
"What does it mean to die
of natural自然 causes原因?"
184
451226
2164
这些问题都很棒,
因为它们会让你思考,
07:45
All of these questions问题 are great,
because they make you think
185
453414
2966
如何去寻找并转达这些数据。
07:48
about ways方法 to find
and communicate通信 these numbers数字.
186
456404
2336
如果有人问你:
“ 排多少尿才算 ‘尿量多’ ?”
07:50
If someone有人 asks you,
"How much pee撒尿 is a lot of pee撒尿?"
187
458764
2503
这是我曾被问及的一个问题,
07:53
which哪一个 is a question that I got asked,
188
461291
2458
你真的会确信:将数据图示化表达
07:55
you really want to make sure
that the visualization可视化 makes品牌 sense
189
463773
2980
能让更多的人容易理解。
07:58
to as many许多 people as possible可能.
190
466777
1747
这些统计数据并不难以得到。
08:00
These numbers数字 aren't unavailable不可用.
191
468548
1575
有时它们只是被淹没在
学术研究的附录里。
08:02
Sometimes有时 they're just buried隐藏
in the appendix附录 of an academic学术的 study研究.
192
470147
3507
它们也绝非高深莫测;
08:05
And they're certainly当然 not inscrutable高深莫测;
193
473678
1839
如果你真的想要检验
这些有关尿量的数据,
08:07
if you really wanted to test测试
these numbers数字 on urination排尿 volume,
194
475541
2975
抓一个瓶子自己试试吧。
08:10
you could grab a bottle瓶子
and try it for yourself你自己.
195
478540
2257
(笑声)
08:12
(Laughter笑声)
196
480821
1008
重点在于,每一份数据集
08:13
The point of this isn't necessarily一定
197
481853
1694
不一定要跟你有专门的关联。
08:15
that every一切 single data数据 set
has to relate涉及 specifically特别 to you.
198
483571
2877
我对“法国有多少女人
因为戴面纱或头巾而被罚款”
08:18
I'm interested有兴趣 in how many许多 women妇女
were issued发行 fines罚款 in France法国
199
486472
2880
这样的问题很感兴趣,
08:21
for wearing穿着 the face面对 veil面纱, or the niqab面纱,
200
489376
1959
即使我不住在法国也不戴面纱。
08:23
even if I don't live生活 in France法国
or wear穿 the face面对 veil面纱.
201
491359
2618
问自己是否符合数据当中的情况,
是为了更好地了解其环境背景。
08:26
The point of asking where you fit适合 in
is to get as much context上下文 as possible可能.
202
494001
3835
所以我们从一小块
数据出发来综观全体,
08:29
So it's about zooming缩放 out
from one data数据 point,
203
497860
2191
就像“失业率是5%”这样的数据,
08:32
like the unemployment失业 rate
is five percent百分,
204
500075
2104
观察它随着时间如何变化,
08:34
and seeing眼看 how it changes变化 over time,
205
502203
1757
或者观察它随着教育程度的
差异而如何改变——
08:35
or seeing眼看 how it changes变化
by educational教育性 status状态 --
206
503984
2650
这就是你的父母总是
希望你上大学的原因——
08:38
this is why your parents父母 always
wanted you to go to college学院 --
207
506658
3104
或者观察它随着
性别差异而如何变化。
08:41
or seeing眼看 how it varies变化 by gender性别.
208
509786
2032
如今,男性的失业率
08:43
Nowadays如今, male unemployment失业 rate is higher更高
209
511842
2127
比女性的失业率高。
08:45
than the female unemployment失业 rate.
210
513993
1700
但是在80年代初期之前,
情况与此相反。
08:47
Up until直到 the early '80s,
it was the other way around.
211
515717
2695
这是美国社会至今为止
08:50
This is a story故事 of one
of the biggest最大 changes变化
212
518436
2117
发生的最大的改变,
08:52
that's happened发生 in American美国 society社会,
213
520577
1720
一旦你不再局限于“平均”,
就会发现这些信息都隐含在在图表中。
08:54
and it's all there in that chart图表,
once一旦 you look beyond the averages均线.
214
522321
3276
轴线能代表一切;
08:57
The axes are everything;
215
525621
1165
当你改变观察的尺度,
你就得到了新的信息。
08:58
once一旦 you change更改 the scale规模,
you can change更改 the story故事.
216
526810
2669
好,第三个也是最后
一个问题,我希望
09:01
OK, so the third第三 and final最后 question
that I want you guys to think about
217
529503
3380
你们在观察数据时思考的是:
09:04
when you're looking at statistics统计 is:
218
532907
1819
这些数据是如何被收集的?
09:06
How was the data数据 collected?
219
534750
1873
09:09
So far, I've only talked about the way
data数据 is communicated传达,
220
537667
2939
目前为止,我只谈到
数据被传达的方式,
但收集这些数据的
方式也同样重要。
09:12
but the way it's collected
matters事项 just as much.
221
540630
2276
我知道这很困难,
09:14
I know this is tough强硬,
222
542930
1167
因为收集数据的方法一般是
不透明而且有些无聊的。
09:16
because methodologies方法 can be opaque不透明
and actually其实 kind of boring无聊,
223
544121
3081
但你能使用一些简单的
步骤来检视数据。
09:19
but there are some simple简单 steps脚步
you can take to check this.
224
547226
2873
这里我要举最后一个例子。
09:22
I'll use one last example here.
225
550123
1839
09:24
One poll轮询 found发现 that 41 percent百分 of Muslims穆斯林
in this country国家 support支持 jihad讨伐异教徒,
226
552309
3887
一份民意调查指出,这个国家内
41%的穆斯林支持伊斯兰教的“圣战”,
这听起来相当吓人,
09:28
which哪一个 is obviously明显 pretty漂亮 scary害怕,
227
556220
1525
这个数字在2015年被大肆报道。
09:29
and it was reported报道 everywhere到处 in 2015.
228
557769
2642
当我想要检查一下这个数据时,
09:32
When I want to check a number like that,
229
560435
2615
我会首先寻找原始的调查问卷。
09:35
I'll start开始 off by finding发现
the original原版的 questionnaire调查问卷.
230
563074
2501
结果表明,
那些报道此事的记者
09:37
It turns out that journalists记者
who reported报道 on that statistic统计
231
565599
2926
忽视了调查问卷后面的一个问题,
09:40
ignored忽视 a question
lower降低 down on the survey调查
232
568549
2231
关于受调查者如何定义“圣战”。
09:42
that asked respondents受访者
how they defined定义 "jihad讨伐异教徒."
233
570804
2346
大多数人是这样定义的:
09:45
And most of them defined定义 it as,
234
573174
1981
“为了变得更加虔诚,
穆斯林们个人的、和平的奋斗。”
09:47
"Muslims'穆斯林 personal个人, peaceful平静的 struggle斗争
to be more religious宗教."
235
575179
3942
只有16%的人如此认为:
“反对不信教者的暴力的、神圣的战争。”
09:51
Only 16 percent百分 defined定义 it as,
"violent暴力 holy war战争 against反对 unbelievers不信."
236
579145
4194
09:55
This is the really important重要 point:
237
583363
2430
这是很重要的一点:
根据这些数据,
完全有可能发生的是:
09:57
based基于 on those numbers数字,
it's totally完全 possible可能
238
585817
2155
在调查中那些把“圣战”解释为
“暴力的、神圣的战争”的人
09:59
that no one in the survey调查
who defined定义 it as violent暴力 holy war战争
239
587996
3105
根本就不支持“圣战”。
10:03
also said they support支持 it.
240
591125
1332
这两组人可能根本就不重叠。
10:04
Those two groups might威力 not overlap交叠 at all.
241
592481
2208
10:07
It's also worth价值 asking
how the survey调查 was carried携带的 out.
242
595122
2637
调查进行的方式也是
一个值得探讨的问题。
10:09
This was something called an opt-in选择参加 poll轮询,
243
597783
1998
这份调查使用了一种
“自愿参与”的调查方式,
意味着任何一个人都可以在
网络上找到并完成这份调查。
10:11
which哪一个 means手段 anyone任何人 could have found发现 it
on the internet互联网 and completed完成 it.
244
599805
3402
我们甚至无从知道这些
被调查者是否是穆斯林。
10:15
There's no way of knowing会心
if those people even identified确定 as Muslim穆斯林.
245
603231
3339
最后,有600人参与了这份调查。
10:18
And finally最后, there were 600
respondents受访者 in that poll轮询.
246
606594
2612
根据皮尤研究中心统计,这个国家里
10:21
There are roughly大致 three million百万
Muslims穆斯林 in this country国家,
247
609230
2654
差不多有3百万穆斯林。
10:23
according根据 to Pew座位 Research研究 Center中央.
248
611908
1607
这意味着,在这个国家中,
每5000个穆斯林中只有一个
10:25
That means手段 the poll轮询 spoke to roughly大致
one in every一切 5,000 Muslims穆斯林
249
613539
2993
参与了这项调查。
10:28
in this country国家.
250
616556
1168
这也是为什么政府的统计数据
10:29
This is one of the reasons原因
251
617748
1266
通常比私人机构的调查
数据更为准确的原因之一。
10:31
why government政府 statistics统计
are often经常 better than private私人的 statistics统计.
252
619038
3607
一份民意调查可能
有数百人参与,甚至一千人,
10:34
A poll轮询 might威力 speak说话 to a couple一对
hundred people, maybe a thousand,
253
622669
3035
或者你在欧莱雅公司,
想要在2005年销售护肤产品,
10:37
or if you're L'Oreal欧莱雅, trying to sell
skin皮肤 care关心 products制品 in 2005,
254
625728
3058
那么你只需要调查48名
认为此产品有效的女性就行了。
10:40
then you spoke to 48 women妇女
to claim要求 that they work.
255
628810
2417
(笑声)
10:43
(Laughter笑声)
256
631251
1026
很显然,私人公司对于
追求数据的准确性兴趣不大,
10:44
Private私人的 companies公司 don't have a huge巨大
interest利益 in getting得到 the numbers数字 right,
257
632301
3556
他们只想得到想要的
数字来进行宣传。
10:47
they just need the right numbers数字.
258
635881
1755
政府的统计学家就不是如此了。
10:49
Government政府 statisticians统计学家 aren't like that.
259
637660
2020
理论上,他们是完全公正的,
10:51
In theory理论, at least最小,
they're totally完全 impartial公正,
260
639704
2447
主要是因为他们的工作
不会受掌权者所影响。
10:54
not least最小 because most of them do
their jobs工作 regardless而不管 of who's谁是 in power功率.
261
642175
3501
他们是公务员。
10:57
They're civil国内 servants公务员.
262
645700
1162
为了做好本职工作,
10:58
And to do their jobs工作 properly正确,
263
646886
1964
他们不能只调查几百人而已。
11:00
they don't just speak说话
to a couple一对 hundred people.
264
648874
2363
我一直提到的这些失业率数字,
11:03
Those unemployment失业 numbers数字
I keep on referencing引用
265
651261
2318
来自于美国劳工统计局,
11:05
come from the Bureau of Labor劳动 Statistics统计,
266
653603
2004
为了进行这项估计,
11:07
and to make their estimates估计,
267
655631
1335
他们调查了全国14万家以上的企业。
11:08
they speak说话 to over 140,000
businesses企业 in this country国家.
268
656990
3489
我知道,这令人沮丧。
11:12
I get it, it's frustrating泄气.
269
660503
1725
如果你想检验来自
一家私人企业的统计数据,
11:14
If you want to test测试 a statistic统计
that comes from a private私人的 company公司,
270
662252
3115
你可以为自己和朋友们
购买一款面霜拿来使用,
11:17
you can buy购买 the face面对 cream奶油 for you
and a bunch of friends朋友, test测试 it out,
271
665391
3361
如果它没有效果,
你可以说那些统计数字有误。
11:20
if it doesn't work,
you can say the numbers数字 were wrong错误.
272
668776
2591
但是你如何质疑
政府的统计数据呢?
11:23
But how do you question
government政府 statistics统计?
273
671391
2146
你需要把一切都检查一遍。
11:25
You just keep checking检查 everything.
274
673561
1630
了解他们是如何收集数据的。
11:27
Find out how they collected the numbers数字.
275
675215
1913
观察一下,你是否在图表中
看到了你需要了解的一切信息。
11:29
Find out if you're seeing眼看 everything
on the chart图表 you need to see.
276
677152
3125
但是也不要完全不相信这些数据,
11:32
But don't give up on the numbers数字
altogether, because if you do,
277
680301
2965
否则我们只能在一无所知中
制定公共政策,
11:35
we'll be making制造 public上市 policy政策
decisions决定 in the dark黑暗,
278
683290
2439
引导我们的除了私人利益,别无他物。
11:37
using运用 nothing but private私人的
interests利益 to guide指南 us.
279
685753
2262
谢谢。
11:40
Thank you.
280
688039
1166
(掌声)
11:41
(Applause掌声)
281
689229
2461
Translated by Wilde Luo
Reviewed by Lipeng Chen

▲Back to top

ABOUT THE SPEAKER
Mona Chalabi - Data journalist
Mona Chalabi tries to take the numb out of numbers. She's left with lots of "ers."

Why you should listen

After working for a humanitarian organisation, Mona Chalabi saw how important data was, but also how easily it could be used by people with their own specific agendas. Since then, her work for organizations like Transparency International and The Guardian has had one goal: to make sure as many people as possible can find and question the data they need to make informed decisions about their lives.

Chalabi is currently the Data Editor of the Guardian US, where she writes articles, produces documentaries and turns data into illustrations and animations. In 2016, her data illustrations were commended by the Royal Statistical Society.

More profile about the speaker
Mona Chalabi | Speaker | TED.com