什么搜索引擎最客观?
互联网看起来像是一个公平的地方,但其实并非如此。有一天,萨菲亚·乌莫加·诺布尔(Safiya Umoja Noble)用谷歌搜索她的侄女可能感兴趣的课题时,这一事实就摆在了她面前。她输入“黑人女孩”(black girls)后,出现了充斥大量淫秽内容的页面。
诺布尔感到震惊,但她并不意外。作为加利福尼亚大学洛杉矶分校(UCLA)的传播学教授,她常年致力于论证,互联网的价值观反映了它的建设者——多数为西方白人男性——而并不代表少数族群和女性。她的新书《压迫的算法》(Algorithms of Oppression)阐述了她在那次灾难般的搜索后展开的研究,并探讨了什么样的隐藏结构塑造了我们通过互联网获取信息的方式。
该书于本月出版。书中指出,搜索引擎的算法并非谷歌所宣称的那么中立。算法让某些结果排在其他结果前面,甚至一个看似中立的代码就能反映社会偏见。而且,在不了解算法的运行方式和大背景的情况下,搜索会不公正地营造关于某个话题(如黑人女孩)的讨论。
诺布尔与《麻省理工科技评论》谈了谈现行系统与生俱来的问题、谷歌应如何改进、以及人工智能将如何加剧这个问题。
人们对搜索引擎的运行方式有什么误解?如果我们搜索最近的星巴克、一句特定的名言、或者某个范围狭窄的、通俗易懂的事物,效果很好。但是,当我们搜索有关身份、有关知识的复杂概念时,搜索结果令人失望。这就是问题所在,公众通常以为他们通过搜索引擎获取的是事实,或经过审查的、可信的信息。我认为,这就是公众对搜索引擎最大的误解。
为了解决偏见问题,谷歌通常会屏蔽特定结果。有没有更好的办法?
我们可以退一步,不做试图组织全世界所有知识的宏伟项目,或者我们可以换一种说法,告诉人们:“这是一个不完美的技术。它是可被操控的。我们将向你展示它是如何被操控的。我们将让产品在这方面变得更透明,大家就会明白,搜索结果在本质上是极为主观的。”然而,很多公司(不只是谷歌)的立场是,他们提供的是你能信赖的东西,这让问题变得非常棘手。
机器学习会如何加剧你写到的种族歧视和性别歧视问题?我一直在说,人工智能或自动化决策系统将在本世纪成为一个人权问题。我对此坚信不疑,因为机器学习算法和相关项目使用的数据存在偏见、不完整且有漏洞。而我们在教机器如何基于这些信息进行决策。我们知道,这将导致各种严重后果。让我再补充一点,人工智能将变得越来越难以干预,因为我们更不清楚,未来人工智能或人工智能系统的建造过程中用过什么数据。比如说,很多不同类型的数据集是非标准化的,它们会被合并在一起用于制定决策。
自从你在2010年首次搜索“黑人女孩”之后,问题是有所改善还是恶化了?自从我开始针对“黑人女孩被特意与淫秽内容关联起来”这个问题写了文章并公开演讲之后,情况已经有所变化。现在,淫秽内容和过度性感的内容不会出现在第一页,因此我认为这是一次悄然进行、没有大肆声张的改进。但其他群体,比如拉丁美洲和亚洲女性,在搜索结果中仍被高度色情化。
本文原刊《麻省理工科技评论》中英文 APP 2018 年 3 月上