发布于 2026-01-06 0 阅读
0

了解机器学习算法中的种族偏见 DEV 的全球展示挑战赛,由 Mux 呈现:展示你的项目!

了解机器学习算法中的种族偏见

由 Mux 赞助的 DEV 全球展示挑战赛:展示你的项目!

尽管我们竭尽全力避免,偏见仍然无处不在。隐性偏见指的是我们对某些群体所持有的态度、信念和刻板印象。偏见会影响我们对待和回应他人的方式,即使是无意识的。

隐性偏见在科技行业也普遍存在,不仅体现在招聘实践中,也体现在那些出于好意的开发者所创造的产品和技术中。尤其值得注意的是,研究人员指出机器学习和人工智能技术存在隐性种族偏见。如果软件开发真的“正在吞噬世界”,那么我们这些身处其中的人就必须重视这些发现,并努力创造一个更美好的世界。

那么,机器学习和人工智能是如何受到种族偏见影响的?更重要的是,我们该如何应对?今天我们将探讨以下内容:

机器学习和人工智能中的种族偏见

机器学习利用算法接收输入、组织数据,并在预设的范围和模式下预测输出。算法看似“客观”的数学过程,但这远非事实。种族偏见以多种微妙或不那么微妙的方式渗透到算法中,导致歧视性的结果。让我们深入探讨一下。

自动化的危险

算法有时会因为错误的原因而得到你想要的结果。通过自动化算法,它常常会发现你无法预测的模式。神经网络水箱实验的传奇故事就体现了算法的这种局限性。

当数据不完善、混乱或存在偏见时,自动化会带来风险。算法可能会抓住无关紧要的数据,并强化无意中产生的隐性偏见。例如,数据科学家达芙妮·科勒解释说,一个旨在识别X光片中骨折的算法,最终却识别出了生成该图像的医院。该算法现在包含了无关数据,并导致结果出现偏差。试想一下,如果一个算法接触到带有种族偏见的数据集,即使在完全不同的背景下,它也会继续吸收这些偏见。

由于自动化,招聘算法尤其容易受到种族偏见的影响。人力资源经理无法逐一筛选大量的求职者,因此简历扫描算法会在人力资源员工阅读简历之前筛选掉大约72%的简历。简历扫描器通常基于公司过去的成功案例进行训练,这意味着它们会继承公司固有的偏见。

替代文字

在一项著名的实验中,招聘人员优先选择名字“听起来像白人”的简历。通过对该数据集进行算法训练,该算法学会了自动过滤掉所有“听起来像黑人”的名字。该算法完全基于主观标准选择候选人,从而延续了种族歧视。这种自动化歧视也阻碍了有色人种获得就业、住房,甚至助学贷款的机会。自动化意味着我们将在所谓的客观算法中制造盲点和种族偏见。

不当的培训和代理

算法需要使用数据集和代理数据进行训练。输入数据可能存在偏差,因此算法也会受到偏差的影响。开发者在训练和测试算法时,常常使用少数族裔代表性不足的数据集。事实上,一个常用的数据集中,74% 的面孔是男性83% 是白人。如果源素材以白人为主,那么结果也会以白人为主。

这对自动人口统计预测器和人脸识别软件中使用的算法构成了一个重大问题。由于人脸识别软件并未接受过大量少数族裔面孔的训练,因此它会基于狭窄的特征范围错误地识别少数族裔。在2015年的一起丑闻中,由于输入数据存在偏见且训练不完整,谷歌的人脸识别技术将两名美国黑人用户错误地识别为大猩猩。

2018年的另一个例子是,执法部门使用的面部识别工具将35%的深色皮肤女性错误识别为男性,而对浅色皮肤男性的错误率仅为0.8%。在美国警察暴力事件频发的当下,我们不难理解这种数据偏差可能导致灾难性的后果,甚至引发暴力事件。

替代文字

代理变量也会产生偏差。简单来说,代理变量是我们用来得出特定结果的变量假设。例如,BMI(身体质量指数)就是一个用来判断某人是否“健康”或“不健康”的代理变量。我们假设BMI等同于健康,因此根据该系统对人体进行分类,尽管BMI的概念已被广泛质疑。如果我们假设某个代理变量是准确的,那么我们也会假设结果同样准确。这种情况在机器学习中经常发生。

2019 年的一项研究表明,一种医疗保健机器学习算法将需要额外护理的黑人患者数量减少了一半。事实上,对于任何给定的健康水平,白人患者的风险评分都更高。由于该算法是基于医疗保健成本的替代指标进行训练的,因此它假设医疗保健成本可以作为健康需求的指标。然而,由于各种种族化的系统性和社会原因,黑人患者在医疗保健方面的支出较少。

如果没有进行更深入的调查,结果可能导致额外资源仅分配给白人患者。当算法进行修改,纳入更准确的健康风险指标后,情况发生了变化:所有病例中,转诊至护理项目的黑人患者比例从 18% 增加到 47%。无数案例证明,机器学习训练和代理模型,即使是出于好意的开发者所创建的,也可能导致意想不到的有害结果,这些结果往往会对少数族裔造成歧视。

人工智能偏见也是人类偏见

算法并非真正中立。认为数学和科学完全客观的观点是错误的。事实上,纵观历史,诸如颅相学甚至进化论等科学发现都曾被用来为种族主义结论辩护。算法是我们用代码表达的观点。由于算法是由数据科学家(也就是像你我这样的人)设计、创建和训练的,因此机器学习技术无意中会引入人类的偏见。这意味着我们的机器有可能继承我们自身存在的任何偏见。

替代文字

资料来源:《时代》杂志关于谷歌搜索算法的文章

如果你还不信,不妨了解一下微软的Tay,这款人工智能聊天机器人仅仅几个小时就被用户“教导”后,开始散播令人不安的种族歧视信息。人工智能的偏见本质上就是人类的偏见。我们才是教它的人。因此,人工智能领域存在代表性问题也就不难理解了。大多数人工智能研究人员都是男性,他们大多来自白人种族群体,拥有相似的社会经济地位,甚至毕业于同一所大学。

2019 年的研究发现,人工智能教授中 80% 为男性,而有色人种在大型科技公司中的代表性仍然不足。在2016 年的一次人工智能大会上,谷歌人工智能研究员蒂姆尼特·格布鲁 (Timnit Gebru) 报告称,在 8500 名与会者中只有 6 名黑人。这种多样性危机意味着,参与机器学习决策或设计的有色人种寥寥无几。如果创新者群体同质化,那么最终的成果和创新也将趋于单一,我们将继续忽视更广泛的人类经验。

消除机器学习技术中的种族偏见

这个问题真实存在且显而易见。那么,我们该如何应对机器学习中的种族偏见?我们能采取哪些积极措施来防止隐性偏见渗透到我们的技术中?让我们来看一些建议和实践。我也建议您查看资源列表,了解其他实用解决方案和研究成果。

使用精确的数据和学习模型进行训练

简而言之,我们必须用“更好”的数据来训练算法。“更好”的数据可以有很多不同的含义。训练数据应该与算法日常使用的数据相似。包含大量“垃圾”数据会增加算法潜在的偏差。避免为不同人群使用不同的训练模型,尤其是在少数群体数据较为有限的情况下。

我们无法完全消除现有数据集中的所有偏差,尤其因为我们无法预知算法自身产生的偏差。因此,我们必须不断地使用来自真实世界分布的数据重新训练算法。此外,我们还需要选择合适的学习模型。监督学习和非监督学习各有优势,必须根据具体项目加以考虑。

人类生成的数据是偏见的巨大来源。这或许并非出于恶意,但人工智能程序会将这些偏见反映给我们。因此,我们在训练算法时需要谨慎谦逊。仅仅向算法输入更“多样化”的数据可能无法消除数据中存在的隐性偏见。我们必须批判性地思考潜在的数据偏见,并向这方面更有经验的人寻求反馈和指导。这为我们提供了一个机会,让我们不仅在技术层面,也在我们自身层面消除偏见。

替代文字

在设计阶段要有意识地进行。

防止种族偏见的关键在于设计阶段。许多公司将降低成本视为算法设计的最终目标,但这种做法存在诸多盲点。当使用信用评分等指标作为替代指标时,数据本身无法反映种族压迫的历史和复杂的社会因素。在设计算法之前,务必了解这些历史,并在最终确定设计方案前咨询专家意见。

我们还必须编写对偏见更加敏感的算法。我们或许无法“根除”偏见,但我们可以通过制衡机制采取预防措施。我们提倡建立控制系统和观察机制,例如对机器学习软件进行随机抽查、对结果进行广泛的人工审核以及人工相关性审查。我们知道算法可能会产生无意的相关性,例如假设一个人的姓名可以作为潜在就业的指标,因此我们需要保持警惕,并调查算法做出决策的原因。

倡导该领域的公平

道理很简单:数据科学领域的多元化可以防止技术加剧偏见。2020年 Stack Overflow 的一项调查显示,68.3% 的开发者是白人。这是一个问题。我们需要从在机器学习领域和领导岗位上聘用更多有色人种开始,并且不能将他们的经验简单化。白人商业领袖不应该期望候选人的行为、言谈或思维方式与他们相同。多元化的核心在于人们带来的各种视角,包括不同的教育背景。

然而,如果科技领域根深蒂固的文化保持不变,招聘方式的改变并不能带来翻天覆地的变化。用于教育或招聘的规范、价值观和语言同样至关重要。科技行业的许多规范都对少数群体存在排斥作用。例如,“技术男”或“编程忍者”之类的说法会让女性和其他少数群体对申请科技职位望而却步。我们需要制定策略来改变这种文化,并鼓励代表性不足的少数群体认同自己是开发者。即使只是指出同事的歧视性语言,也是一个很好的开始。

我们还需要增加资源获取渠道。关于机器学习有很多误解,比如需要名牌大学的博士学位,或者人工智能专家非常稀少。我们需要改变这种观念,不再认为机器学习技术是为那些享有盛誉、大多是白人的科学家所垄断的。这些误解阻碍了有才华的人融入其中,阻碍了他们寻找工作,甚至阻碍了他们入门。以公平和开放的态度对待这些工具,是良好的开端。

替代文字

改变我们教授科学和数学的方式

正如我之前提到的,科学和数学并非必然客观。如果我们把数据贴上“客观”或“事实”的标签,我们就更不愿意批判性地思考那些限制甚至伤害我们的主观因素和偏见。科学的教学方式仿佛它“凭空出现”,仿佛不存在任何个人偏见。但科学和数学并非不受社会、历史、政治或经济因素的影响。科学正是在人类生活的“混乱”和复杂性中产生的。我们不应为了追求客观性的幻觉而忽视现实世界。

这其中一部分要归结为重新构想科技教育。仅仅招募那些已经完成传统教育后期阶段的员工或学生并不能改变现状。相反,我们需要重新思考如何看待、教授以及将STEM+M与其他领域区分开来。一个至关重要的改变是鼓励跨学科教育,让STEM专业的学生在学习科技技能的同时,也能学习艺术、历史、文学等其他学科。我们还必须重述科技史,以彰显少数群体常常被遗忘的贡献。这些创新和经验并非科技史的一个子集,它们本身就是科技史的一部分。

总结

算法既可以是糟糕的工具,也可以是绝佳的工具。关键在于我们如何创造算法,我们邀请哪些人参与其中,以及我们转变文化视角的意愿有多强。在当今世界分裂的时代,我们经常听到必须努力成为反种族主义者。让我们共同思考,机器学习和算法也应该如何被设计成反种族主义的工具。正如我们个人的偏见掌握在我们自己手中一样,改变偏见的力量也掌握在我们自己手中。

持续学习,并在工作场所积极倡导变革。请查看以下资源,了解更多相关信息。

参考资料及延伸阅读

斯坦福商学院关于种族偏见和大数据

神经网络坦克都市传说

《纽约时报》关于人工智能和种族偏见的文章

劳动力市场歧视与机器学习算法

基于面部图像的人口统计估计

人工智能多样性与面部识别

改变STEM领域弱势群体的文化

《卫报》关于警务和面部识别技术的文章

文章来源:https://dev.to/educative/understanding-racial-bias-in-machine-learning-algorithms-4cij