方可成
方可成

香港中文大学助理教授

大数据杀伤性武器

来完成接力。

以下内容洁平和刘垚可能看过,因为我曾经写在了新闻实验室会员通讯里面,哈哈。

今年读过的最喜欢的一本书是《Weapons of Math Destruction》,书名戏仿“Weapons of Mass Destruction(大规模杀伤性武器)”。直接翻译过来是“数学杀伤性武器”,考虑到书的主题,翻成“大数据杀伤性武器”或许更为恰当。

书的作者Cathy O’Neil是一位数学家,从小就是个数学nerd,哈佛大学数学系博士毕业后,进入哥伦比亚大学的巴纳德学院任教。后来,她离开高等教育行业,进入金融机构,加入了全球顶级的对冲基金D. E. Shaw。一开始,她对新工作感到非常兴奋:终于离开纸面上的演算,可以将数学知识用于真实世界之中了。但是,不久之后发生的2008年金融危机,让她“幡然醒悟”——她意识到,她和她周围的数学天才们,以为自己在为世界创造财富,其实却是毁掉千千万万普通人生活的帮凶;他们手中的数学技能,很可能正是无形的“大规模杀伤性武器”。

离开金融行业之后,作者又陆续在一些创业公司工作,身份是“数据科学家”。她的主要工作,就是从互联网上收集大量关于个人用户的数据,包括上网的地理位置和时间、浏览的网页、在社交媒体上的点赞、点击的网页广告、在网上购买的产品,等等等等,然后建立数学模型,预测用户的行为,以更好地向他们展示广告、兜售商品。

这就是“大数据经济”运行的基本模式。这当然是一个充满了财富机会的产业,但是作者却在其中发现了越来越多的问题。其实,大数据的运用早已不限于商业公司——各类政府机构也已经大规模采用大数据方法,雇佣数据科学家,或者将工作外包给数据公司。这就让数学的大规模杀伤性武器,伤及了更多的人——每一个人。

如作者所言,这个世界上已经有很多大数据的鼓吹者和传教士,而她要做的,则是展示大数据的黑暗一面。

大数据杀伤型武器有三个条件:不透明、规模大、造成伤害

书中举了很多例子,比如——

用算法评价老师的故事。2007年,华盛顿特区的新市长开启了利用数据来评价公立学校老师的项目。然而,一些好老师却在这个项目中被机器评为非常差的老师,被学校辞退。这是因为机器所能利用的变量十分有限,主要集中于学生考试分数在入学前和入学后的变化,而对学生的关心程度等很难被量化,因此也就没有被考虑。而且,机器还没有考虑到一些特殊情况,比如一个班上有一批特别好的学生,入学时成绩就很高了,提高空间很有限,机器不会考虑这些,只会判定老师没能提高学生成绩。更何况,一个班的学生也就二三十人,样本量很少,容易产生很大的误差,误伤好老师。

大学排行榜的故事。著名的《美国新闻与世界报道》大学排行榜,挽救了这份媒体,却给高等教育界造成了混乱。和对中小学老师的评价一样,这个排行榜只能依赖一些可以获得的量化数据,比如SAT分数、师生比等,这就让一些学校可以通过一些方式极快地提高排名。在设计模型的时候,这个排行榜没有将“学费”这个因素放进去,因为一旦放进去,哈佛耶鲁这样收费很贵的私立学校可能就不会排在第一第二了,这就会引发大家对排行榜的质疑。但正因为排行完全不考虑学费因素,所以大学可以涨学费而不顾及对排名的影响。

用算法定罪的故事。美国一些法院曾经尝试用算法来给犯人定罪,他们希望这可以降低种族歧视的概率(人在定罪时会受种族等因素的影响)。但是,在一个广泛使用的模型中,机器询问了很多和成长背景和经历有关的数据:比如,你第一次和警察打交道是什么时候?出身于贫困地区的人自然可能很早就和警察打过交道,而家境优越的犯人可能在这次被逮捕前从来没有跟警察打过交道。这就可能造成一个恶性循环:出身不好的犯人,被判得更长,出来之后也就更难找工作,更有可能再次犯罪,这又再次提高了他所在地区的犯罪率,然后又让他这个地区的人获得更长的刑期……

网络广告的故事。有一类广告叫做“掠食性(predatory)广告”,它针对的是最无助、绝望的人,因为这批人最可能病急乱投医,会上当买假产品、上野鸡学校。而大数据技术正在精准地发现这批人,让广告主可以精准地“捕食”他们。

保险的故事。现在,拜大数据所赐,保险公司对投保人的了解要远远超过从前,你的每一次网上浏览行为、每一次驾车出行的目的地,都可能会影响你的保费。同样,在这种情况下,最可能受到伤害的是底层人:他们最需要保险,却受到最苛刻的考察和对待,这让他们更难得到保险,而这又进一步恶化了他们的生存状况。

……

作者说,这些故事看似孤例,其实是彼此联系的:穷人的信用分更低,更可能住在犯罪率高的地区;掠食性广告更可能针对他们,骗取他们的钱财;警察更可能搜查他们,如果发现犯罪,会判更长时间的刑;出狱之后,他们的简历更容易被机器筛掉;找不到工作,信用分继续跌,保险费继续涨……对于底层人来说,大数据杀伤性武器控制的世界就像是地狱。

而且,在未来,上层人的数据在很多时候都由人来处理,而下层人则越来越多地交给机器、交给漏洞百出的算法来处理。一小群人将可以从大数据经济中赚得盆满钵满,而很大一部分人将成为受害者。更为危险的是,缺乏对算法的监督,使得它成为暴君,乃至神一样的存在。

在书的结尾,作者打了个比方:工业革命开始时,挖矿、修路都成了极好的生意,让商人们大赚一笔,但是挖矿和修路的工人却工作在非常危险的环境之中,很多人死伤。后来,这些问题被媒体曝光,工人们联合起来反抗,社会支持,才使得一些基本的劳工保障措施得以实施。虽然企业的成本提高了,但是整个社会的福祉提高了,也变得更加稳定。

大数据革命就好像是另一场工业革命,目前还处在早期的混乱之中,穷人就好像当年挖矿的工人一样,处境危险。所以,作者呼吁对算法和模型的外部监督,不要让算法成为新时代的无人监督的独裁者。

作者说,大数据杀伤性武器,可以被驯服,可以被转化成有益的工具。比如,那些计算个体犯罪可能性的算法,其实很有用——你不是去搜查他,而是去找到这些人,给他们提供帮助。那些“掠食性广告”的算法,其实很聪明,如果用来发现最需要帮助的人,会很有价值。就像工业革命一样,大数据的潮流是无法阻挡的,关键是,在这样的大潮之中,我们不应该对现状毫无保留地全盘接受,而是应该去做些什么、改变些什么。

CC BY-NC-ND 2.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…

发布评论