前沿译文丨如何实现算法公平：AI偏见及其克服（上）

快报

2021

05/19

16:34

亚设网

作者：NINAREH MEHRABI, FRED MORSTATTER, NRIPSUTA SAXENA,KRISTINA LERMAN, and ARAM GALSTYAN, USC-ISI

编译：对外经济贸易大学金融科技实验室

前沿译文丨如何实现算法公平：AI偏见及其克服（上）

编者按

随着AI系统和应用程序在日常生活中的广泛使用，算法歧视和算法公平成为不同学科关注的焦点问题。美国南加州大学Ninareh Mehrabi等人2019年发表了《机器学习中的偏见和公平性调查》（A Survey on Bias and Fairness in Machine Learning）一文，深入剖析了可能影响AI偏见的不同来源，尤其是梳理了数据偏差的不同类型。进而，该文初步确立了“算法公平”的基本架构，并在此架构下，提出了改进机器学习、自然语言处理和深度学习，以减轻AI系统中的偏见问题。这篇文章从“数据”和“算法”两方面展现了歧视和偏见的形成机理，并尝试着将体系化的公平伦理注入算法之中，其进路对我国算法治理具有借鉴意义。为此，我们特编译刊发，以飨读者，因原文过长。本公号分两期发出。

——对外经济贸易大学数字经济与法律创新研究中心执行主任许可

1.导论

机器算法已经渗透到我们日常生活的方方面面。算法作出电影推荐、提供购买产品的建议，并越来越多地用于贷款申请[93]、约会和雇用[18、35]的高风险决策中。算法决策有明显的好处。与人不同，机器不会变得疲劳或无聊[40，98]，并且可以比人纳入更多数量级的考虑因素。但是，就像人一样，算法容易受到偏见的影响，这些偏见会使他们的决策“不公平” [5，100]。在决策过程中，公平是指根据个人或群体的固有或后天特性，对个人或群体不存在任何偏见或偏爱。因此，一种不公平的算法是其决策偏向特定人群的算法。一个典型的例子来自美国法院用来做出假释判决的工具。替代性惩戒者犯罪管理剖析软件（COMPAS）可以衡量一个人再次犯下另一种罪行的风险。法官使用COMPAS来决定是释放罪犯还是将他或她关在监狱里。对该软件的一项调查发现，这个软件存在针对非裔美国人的偏见：COMPAS给非裔美国人罪犯分配的风险得分比给具有相同特征的白种人更高的风险得分。在其他领域也存在相似发现，例如用于评选选美冠军的AI系统存在针对肤色较黑的参赛者的偏见或数码相机中的面部识别软件过度预报亚洲人在眨眼。这些偏见的预测源于数据或算法中隐藏或忽略的偏见。

在本次调查中，我们确定了机器学习结果不公平的两个潜在原因，即数据偏见和算法偏见。我们回顾了有关数据偏见如何歪曲机器学习算法所学知识的研究，以及算法本身的工作方式上的细微差别（即使数据是无偏见的），这些细微差别使他们无法做出公平的决策。

我们从一些在现实世界中非常明显的案例开始回顾，在这些案例中，不公平的机器学习算法导致了次优和歧视性的结果。然后，我们描述了数据中出现的多种类型的偏见，并介绍了公平概念已在文献中得到运用和研究的不同方式。我们讨论了将这两个概念耦合在一起的方式。最后，我们将专注于不同的机器学习方法系列，公平在每种方法中如何不同的体现，以及解决这些问题的最新技术，其次是各个领域中未来工作的可能领域。

2. 算法不公平的真实例子

在过去的几十年中，随着AI和机器学习的普及以及它们在不同应用中的流行，安全性和公平性约束已成为研究人员和工程师面临的巨大问题。法院使用机器学习来评估被告重新犯罪的可能性。它被用于不同的医学领域、儿童福利系统[32]和自动驾驶汽车。所有这些应用都会对我们的生活产生直接影响，并且考虑到公平性，如果设计和工程设计不当，可能会损害我们的社会。[101]列出了这些应用程序以及这些AI系统通过其固有的偏见影响我们的日常生活的方式，例如AI聊天机器人、就业匹配、航班路线以及针对移民算法的自动法律援助和搜索，还有广告展示位置算法中存在的偏见。[58]还讨论了现实中的偏见如何渗透到AI和机器人系统中的一些示例，例如面部识别应用程序、语音识别和搜索引擎中的偏见。因此，对于研究人员和工程师来说，在对算法或系统进行建模时，必须关注下游应用及其潜在的有害影响，这一点很重要。一个著名的例子是COMPAS，它是一种广泛使用的商业风险评估软件，在一项研究中对它与正常人的判断进行了比较，研究发现它并不比正常人更好[41]。有趣的是，尽管COMPAS使用了137个功能，但只有7个功能在研究中呈现给了人们。在[41]中，作者还提出，在做出决策时，COMPAS并不比简单的逻辑回归模型更好。我们应该负责任地思考，并认识到这些工具已在法庭上使用，并且实际上正在做出影响人们生活的决定；因此，在设计和策划些类型的敏感工具时，考虑公平性约束是一项至关重要的任务。在另一项类似的研究中，在调查群体不公平的根源（稍后将明确不同群体之间的不公平的定义）时，[119]中的作者将SAVRY（一种用于风险评估框架，包括在过程中进行人为干预的工具）与自动机器学习方法进行了比较，目的是看哪个更准确，更公平。这些类型的研究应该更频繁地进行，但应在发布工具之前，以避免造成伤害。

研究人员研究的另一个有趣的方向是引入可以评估工具或系统中公平程度的工具。例如，Aequitas [110]，一个利用不同人口子群若干偏见和公平指标，可让用户测试模型的工具。Aequitas从获得的数据中生成报告，以帮助数据科学家、机器学习研究人员和决策者做出有意识的决策，以避免对某些人群造成伤害和破坏。AI Fairness 360（AIF360）是IBM开发的另一种工具包，旨在帮助将公平性研究算法应用到工业环境中，为公平性算法创建基准以进行评估，并为公平性研究人员提供一个分享他们的想法的空间[10]。这些工具包对于学习者、研究人员和行业中的人们从歧视性行为转向开发公平的机器学习应用程序很有帮助。除了COMPAS，歧视行为在一种算法中也很明显，该算法可以投放广告来促进科学、技术、工程和数学（STEM）领域的工作[74]。该广告旨在以不影响性别的方式投放广告。但是，由于性别不平衡，看到广告的女性人数少于男性，这导致年轻女性被认为是有价值的人群，并且向其展示广告的成本更高。尽管其最初的纯粹意图是不分性别，但该优化算法仍会以歧视性方式投放广告。面部识别系统[106]和推荐系统[114]中的偏见也得到了广泛的研究和评估，并且在许多情况下这些系统都显示出对某些人群和子群的歧视。为了能够解决这些应用程序中的偏见问题，对于我们来说，重要的是要知道这些偏见来自何处以及我们可以采取哪些措施来防止它们。

3.数据偏见

前沿译文丨如何实现算法公平：AI偏见及其克服（上）

图1.数据偏见示意图。红线表示整个群体的回归（MLR），绿色虚线线表示每个子组的回归，绿色实线表示无偏见回归。（a）当所有子组的大小相等时，MLR表示结果与自变量之间呈正相关。（b）回归显示在平衡较差的数据中几乎没有关系。但是，每个子组中变量之间的关系保持不变。（图片来源：Nazanin Alipourfard）

数据（尤其是大数据）通常是异构的，由具有各自特征和行为的子组生成。异质性（下面将描述其中的一些异质性）可能会偏向数据。从有偏见的数据中学到的模型可能会导致不公平且不准确的预测。为了说明数据偏见如何影响机器学习，请考虑一项假设性营养研究，该研究测量了结局，体重指数（BMI）如何随每日面食卡路里摄入量的变化而变化（图1）。回归分析（红色实线）显示了这些变量之间的总体正相关。积极趋势表明，通心粉消费量的增加与BMI的升高有关。但是，研究人员不知道，研究人群是异类的，由健康水平各异的亚组组成，包括不运动的人，具有正常活动水平的人和运动员。当按适合度水平对数据进行分类时，每个子组内的趋势为负（绿色虚线），得出结论，实际上，意大利面消费量的增加与BMI的降低有关。来自总体分析的关于意大利面食用的建议，与来自考虑了亚组之间差异的更仔细分析所提出的建议相反。

3.1 偏见的类型

数据中的偏见可以以多种形式存在，其中某些形式可能导致不同的下游学习任务不公平。在[118]中，作者讨论了机器学习中的偏见来源及其分类和描述，以引出规制本文介绍的每种偏见的未来解决方案。在[99]中，作者准备了各种类型的偏差的完整列表，以及它们的相应定义，这些定义存在于从数据起源到收集和处理的不同周期中。在这里，我们将重申这两篇论文中介绍的一些最普遍，最重要的偏见来源，并且还会增加其他现有研究论文中的一些结论。另外，我们还将在本文后面介绍这些定义的不同分类和分组。（1）历史偏见。历史偏见是世界上已经存在的偏见和社会技术问题，即使有完美的采样和特征选择，历史偏见也会从数据生成过程中渗入[118]。在2018年的图片搜索结果中可以找到这种类型的偏见的示例，其中搜索女性CEO时会发现女性CEO的图片在逐渐减少，原因是《财富》 500强企业中只有5％的CEO是女性，这将导致搜索结果偏向男性CEO[118]。这些搜索结果当然反映了现实，但是搜索算法是否应该反映这一现实是一个值得考虑的问题。（2）代表性偏见。代表性偏差来自我们定义和抽样人群的方式[118]。这种类型的偏差的一个例子就是像Image Net这样的数据集缺乏地理多样性（如图3和图4所示）。这表明了对西方国家的偏见。（3）测量偏见。测量偏见发生于我们选择、利用和测量特定特征的方式[118]。在累犯风险预测工具COMPAS中观察到了这种偏见的例子，其中被观察者先前的被逮捕记录和朋友/家人的被逮捕记录被用作替代变量，以衡量“风险”或“犯罪”的程度，可以单独查看作为测量错误的代表。这是由于以下事实：少数民族社区受到更频繁的控制和监管，因此他们的逮捕率更高。但是，不应得出结论，因为来自少数群体的人的被逮捕率较高，因此他们更危险，因为在评估和控制这些群体的方式上存在差异[118]。（4）评估偏见。在模型评估期间会发生评估偏见[118]。这包括使用不合适和不成比例的基准来评估应用程序（例如Adience和IJB-A基准）。这些基准用于偏向肤色和性别的面部识别系统的评估[23]，并可作为此类偏见的示例[118]。（5）聚合偏见。当基于观察其他不同的子组得出一个子组错误的结论时，或者通常是关于人口的错误假设影响模型的结果和定义时，就会发生聚合偏差[118]。在临床辅助工具中可以看到这种类型的偏见的例子。请考虑在种族和性别方面存在明显差异的糖尿病患者，或更具体地说，广泛用于糖尿病诊断和监测的HbA1c水平在不同性别和种族之间存在复杂的差异。因此，由于这些因素以及它们在不同亚人群和人群中的不同含义和重要性，因此单一模型很可能不是最适合所有人群的模型，即使它们在训练数据中均等地表示也是如此。关于不同种群的任何一般假设都可能导致聚集偏见。（6）人口偏见。当统计数据，人口统计学，代表和用户特征在数据集或平台中表示的用户群体与原始目标人群不同时，就会出现群体偏差[99]。这种偏见的一个例子可能来自不同社交平台上的不同用户人口统计数据，例如女性更可能使用Pinterest，Facebook，Instagram，而男性更活跃于Reddit或Twitter等在线论坛。可以在[56]中找到更多根据性别，种族，种族和父母教育背景与年轻人使用社交媒体有关的此类示例和统计信息。（7）辛普森悖论。辛普森悖论[17]可能会使由具有不同行为的亚组或个人组成的异构数据的分析产生偏见。根据辛普森悖论，在潜在的子组中观察到的趋势，关联性或特征可能与汇总前述子组时观察到的关联性或特征有很大不同。在加州大学伯克利分校的大学录取中，性别偏见诉讼引发了此类悖论的最著名例子之一[15]。在分析研究生入学数据之后，似乎对女性存有偏见，与男性相比，被录取为研究生课程的女性比例较小。但是，当各个部门的招生数据分离并进行分析时，女性申请人具有平等性，在某些情况下甚至比男性具有的优势。由于女性倾向于向男女录取比率较低的学科提出申请，因此出现了自相矛盾的情况。辛普森悖论已在许多领域被观察到，包括生物学[34]，心理学[68]，天文学[89]和计算社会科学[77]。（8）纵向数据谬误。观察性研究通常将横截面数据视为纵向数据，这可能会因辛普森悖论而产生偏差。例如，对大量Reddit数据的分析[9]显示，评论长度平均随时间而减少。但是，大量数据代表了人口的横断面快照，实际上包含了不同年份加入Reddit的不同人群。当按队列对数据进行分类时，发现每个队列中的注释长度都随时间增加。（9）采样偏见。采样偏差是由于对子组的非随机采样而产生的。由于抽样偏差，一个人群的估计趋势可能不会推广到从新人群中收集的数据。对于直觉，请再次考虑图1中的示例。假设下次进行研究时，其中一个子组的采样率要高于其余子组。尽管子组趋势（绿色虚线）不受影响，但在第一项研究中，回归模型发现的正趋势几乎完全消失（右侧图中红色实线）。（10）行为偏见。行为偏见源于跨平台，背景或不同数据集的不同用户行为[99]。可以在[88]中观察到这种偏见的例子，作者展示了表情符号在平台之间的差异如何导致人们的不同反应和行为，甚至导致沟通错误。（11）内容制作偏见。内容产生偏见源于用户生成的内容的结构，词汇，语义和句法差异[99]。这种偏见的例子可见于[97]，其中讨论了不同性别和年龄组的语言使用差异。在国家和人群之间以及内部和国家内部，也可以看到语言使用上的差异。（12）链接偏见。当从用户连接，活动或交互获得的网络属性不同并且歪曲了用户的真实行为时，就会产生链接偏见[99]。在[85]中作者展示了仅当社交网络偏向低度节点时考虑网络中的链接，而不考虑网络中用户的内容和行为。[126]还显示，用户交互与基于功能（例如交互方法或时间）的社交链接模式有很大不同。网络中的差异和偏差可能是由许多因素导致的，例如[51、91]中所示的网络采样，这些因素可能会改变网络度量并引起不同类型的问题。（14）人气偏见。最受欢迎的物品往往会暴露更多。但是，受欢迎程度指标可能会受到操纵。例如，通过虚假评论或社交机器人[96]。例如，这种偏见可以在搜索引擎[61，96]或推荐系统中看到，在这些系统中，受欢迎的对象将被更多地呈现给公众。但是，此呈现可能不是高质量的结果。相反，这可能是由于其他偏见因素造成的。（15）算法偏见。算法偏见是指在输入数据中不存在偏见并且仅由算法添加的偏见[8]。（16）用户互动偏见。用户交互偏见是一种不仅可以在Web上观察到，而且还可以通过两种方式触发的偏见：用户界面，以及通过施加用户他/她自己选择的偏见行为和交互作用，通过用户本身触发的现象[8]。这种类型的偏见可能会受到其他类型和子类型的影响，例如表示和排名偏见。（17）表示偏见。表示偏见是信息呈现方式的结果[8]。例如，在Web上，用户只能单击他们看到的内容，因此看到的内容会获得点击，而其他所有内容都不会获得点击。用户可能无法在网页上看到所有信息[8]。（18）排名偏见。排名最高的结果是最相关和最重要的想法将吸引更多的点击。这种偏见影响了搜索引擎[8]和众包应用[78]。（19）社会偏见。当其他人的行为或内容影响我们的判断时，就会产生社会偏见。 [8]。例如，当我们想要对低分的商品进行评分或评价时，这种偏见的例子可能是，但是当受到其他高分的影响时，我们改变了评分方式，认为自己可能太苛刻了[8，125] 。（20）出现偏见。出现偏见是由于使用和与真实用户互动所致。这种偏见是由于人口、文化价值或社会知识的变化而产生的，通常是在设计完成后的一段时间[46]。由于界面倾向于通过设计反映预期用户的能力、特征和习惯，因此在用户界面中更容易观察到这种类型的偏见[46]。如[46]中详细讨论的，这种类型的偏见本身可以分为更多的子类型。（21）自我选择偏见。自选偏见4是选择或抽样偏见的子类型，研究对象在其中进行自我选择。在被调查者认为自己可以适当参加研究的情况下，可以观察到这种偏见的例子。例如，在一项关于聪明或成功学生的调查研究中，一些不太成功的学生可能认为他们足够成功因此参加了调查，但是这将使分析结果产生偏见。实际上，这种情况发生的可能性很高，因为成功的学生可能不会花时间填写调查问卷，而这会增加自我选择偏见的风险。（22）省略可变偏见。当模型中遗漏了一个或多个重要变量时，就会发生省略变量偏见4。这种情况的一个示例是某人设计模型以较高的准确性预测客户将停止订阅服务的年百分比，但很快就发现，大多数用户在没有收到设计模型的任何警告的情况下取消了订阅。现在想象取消订阅的原因是市场上出现了一个新的强大竞争对手，该竞争对手提供相同的解决方案，但价格低廉。竞争者的出现是模型还没有准备好的。因此，它被视为省略的变量。（23）因果偏见。由于相关性暗示因果关系的谬误，可能导致因果偏见4。在公司的数据分析师想要分析新的忠诚度计划的成功程度的情况下，可以观察到这种偏见的例子。这位分析师认为，签署了忠诚度计划的客户在公司电子商务商店中的消费要比未购买忠诚度计划的顾客多。如果分析人员立即得出忠诚度计划成功的结论，将是有问题的，因为可能是只有更多的忠诚或忠诚客户（他们可能计划花费更多的钱）才将忠诚度感兴趣程序放在首位。由于这种偏见的性质及其在敏感的决策政策中所扮演的角色，因此可能会产生严重的后果。（23）观察者偏见。当研究人员下意识地将他们的期望投射到研究中时，就会发生观察者偏见4。当研究人员（无意中）影响参与者（在访谈和调查过程中）或当他们挑选有利于他们研究的参与者或统计数据时，会发生这种类型的偏见。（24）资金偏见。当有偏倚的结果被报告出来以支持或满足研究的资助机构或财务支持者时，就会出现资金偏见4。例如，当公司员工报告其数据和统计数据中的结果有偏见以使供资机构或其他方满意时，就会体现出来。现有工作试图将这些偏见定义归为一组，例如仅属于数据或用户交互作用的定义。但是，由于存在反馈循环现象，在这种情况下，训练有素的机器学习模型会做出产生结果的决策，而这些结果会影响将来将为后续训练或模型收集的数据[33]，这些定义是交织在一起的，我们需要一种可以对这种情况进行精确建模的分类。这种反馈循环不仅存在于数据和算法之间，而且一些工作分析了算法与用户交互之间这种循环的存在[28]。从这些论文中获得启发，我们还对偏见定义的分类建模，如图2所示，并将这些定义分组在我们认为最有效的循环箭头上。我们再次强调以下事实：这些定义是相互交织的，应该考虑它们在这一周期中如何相互影响，并尝试相应地解决它们。3.2 数据偏见示例

歧视性偏见可以通过多种方式渗入数据。例如，使用不平衡的数据可能会导致对代表性不足的群体的偏见。在[23]中，作者表明，像IJB-A和Adience这样的数据集是不平衡的，并且主要包含肤色较浅的对象—IJB-A中为79.6％，Adience中为86.2％。这会使分析对数据中代表性不足的深色皮肤人群产生偏见。在另一种情况下，当我们不考虑数据中的不同子组时，我们使用和分析数据的方式会产生偏见。在[23]中，作者还表明仅考虑男性-女性群体是不够的，但是还需要利用种族将性别群体进一步细分为浅肤色的女性，浅肤色的男性，深色皮肤的男性和深色皮肤的女性。

前沿译文丨如何实现算法公平：AI偏见及其克服（上）

图2.数据、算法和用户交互反馈回路中的偏差定义位于其最合适的箭头上。

只有在这种情况下，我们才能清楚地观察到对深色皮肤女性的偏见，因为以前的深色皮肤男性会折衷于深色皮肤女性，并且会掩盖对该亚组的潜在偏见。 [142]也分析了一些可能存在于数据和算法中的偏差的例子，并为缓解这些问题提供了一些建议。这些数据偏差在其他敏感应用程序中可能更加危险。例如，在医学领域，许多情况下，研究和使用的数据偏向某些人群，这可能会对代表性不足的社区造成危险的后果。 [83]这显示了将非裔美国人排除在外如何导致他们在临床研究中的错误分类，因此他们提倡在数据中对不同人群的基因组进行测序，以防止对代表性不足的人群造成伤害。文章[117]的作者研究了23andMe基因型数据集，发现在公共存储库中公开共享其基因型的2399名个体中，有2098名（87％）是欧洲人，而只有58名（2％）是亚洲人和50名（2％）非洲。在[47]中进行了其他此类研究，其中指出，英国生物库是一个庞大且广泛使用的遗传数据集，可能并不代表抽样人群。研究人员发现“健康志愿者”选择偏见的证据。 [124]还有其他研究医学领域数据中存在的偏差的例子。

[130]还研究了医学领域中使用的机器学习模型和数据，并撰写了有关卫生保健中的人工智能如何未平等地影响所有患者的文章。这个问题不仅存在于医学领域，而且作为大多数已开发算法和工具基础的流行机器学习数据集也可能存在偏差，这可能对基于这些数据集的下游应用程序有害。例如，ImageNet和Open Images是机器学习中两个广泛使用的数据集。在[116]中，研究人员研究并表明这些数据集存在代表性偏差，并主张在创建此类数据集时必须纳入地域多样性和包容性。

前沿译文丨如何实现算法公平：AI偏见及其克服（上）

图3. Open Images和ImageNet图像数据集中每个国家的分数，用两个字母的ISO代码表示。在两个数据集中，美国和英国均位居首位。

前沿译文丨如何实现算法公平：AI偏见及其克服（上）

图4. Open Images图像数据集中国家的地理分布表示。在他们的样本中，几乎三分之一的数据来自美国，而其中60％的数据来自北美和欧洲的六个代表性最高的国家。

4.算法公平

反对偏见和歧视在哲学和心理学上以及在机器学习中已有悠久的历史。但是，为了能够与歧视作斗争并实现公平，我们首先定义“公平”的概念。在计算机科学开始探索公平概念之前，哲学和心理学就试图定义公平的概念。关于公平的普遍定义不存在的事实，表明解决这个问题很困难。不同的偏好不同文化中的观点偏向于以不同的方式看待公平，这使得在某种情况下，想出一个大家都能接受的定义变得更加困难。事实上，即使在计算机科学中，大部分为算法提出新的公平性约束的工作都来自西方，并且许多此类论文使用相同的数据集和问题来展示其约束如何发挥作用，但在哪些约束上最适合这些问题，仍然没有明确的共识。

4.1 歧视类型

从广义上讲，公平是指在决策过程中不因个人或群体的内在或后天的特征而对个人或群体产生任何偏见或偏袒。尽管公平是社会上令人难以置信的品质，但在实践中却很难实现。

为了理解我们如何拥有如此多的公平定义，理解可能发生的各种歧视也至关重要。

(1) 直接歧视。当个人的受保护属性明确导致对他们不利的结果时，就会产生直接歧视[136]。通常，有一些法律确定的特征是非法歧视的，在计算机科学文献中通常将这些特征视为“保护”或“敏感”属性。表4中提供了一些受保护属性的列表，如《公平住房和平等信贷机会法案》（FHA和ECOA）[29]所规定。

(2) 间接歧视。在间接歧视中，似乎是根据看似中立且不受保护的属性来对待个人；但是，由于受保护的属性所隐含的影响，受保护的群体或个人仍然会受到不公正的对待。（例如，某人的住宅邮政编码可用于诸如贷款申请之类的决策过程中。但是，尽管邮政编码似乎是非敏感属性，但由于居住区的人口众多，它可能与种族相关，仍可能导致种族歧视）[136]。

(3) 系统性歧视。系统性歧视是指政策、习俗或行为，它们是组织文化或结构的一部分，可以使对特定人群的歧视长期存在[36]。例如，一家满足客户要求而导致歧视性安置员工的餐厅将是系统性歧视。 [108]我们发现，雇主绝大多数都选择与自己在文化上相似并且具有相似经验和爱好的胜任的应聘者。如果决策者恰好绝大多数都属于某些小组，这可能会导致歧视不属于这些小组的胜任候选人。

(4) 统计歧视。统计歧视是一种现象，决策者使用平均群体统计数据来判断属于该群体的个人。它通常发生在决策者（例如，雇主或执法人员）使用某人的明显的、可识别的特征来替代可能与结果实际上相关的隐藏特征或更加难以确定的特征时 [ 102]。

(5) 可解释的歧视。在某些情况下，可以通过某些属性来证明和解释不同组之间的处理和结果差异。在证明和解释了这些差异的情况下，它不被视为非法歧视，因此被认为是可解释的[64]。例如，作者在[64]中指出，在公平领域中广泛使用的UCI成人数据集[6]中，男性平均年收入高于女性。但是，这是因为女性平均每周工作时间少于男性。每周工作时间是一个属性，可用于解释需要考虑的低收入。如果我们在不考虑工作时间的情况下做出决定，以使男性和女性最终获得相同的平均收入，则会导致反向歧视，因为这将导致男性雇员获得的工资低于女性。因此，可以解释的歧视是可以接受的并且是合法的，因为可以通过其他属性（例如工作时间）来解释。在[64]中，作者提出了一种量化数据中可解释和非法歧视的方法。他们认为，未将歧视的可解释部分考虑在内的方法可能会导致不良结果，因此，他们引入了反向歧视，这既有害又不利。他们解释了如何量化和衡量数据或分类器的决定中的歧视，直接考虑非法和可解释的歧视。

(6) 无法解释的歧视。与可解释的歧视相反，存在无法解释的歧视，其中对群体的歧视是不合理的，因此被认为是非法的。作者在[64]中还提出了仅用于消除非法或无法解释的歧视的本地技术，仅允许在决策中做出可解释的差异。这些是预处理技术，可更改训练数据，使其不包含无法解释的区别。我们希望对经过预处理的数据进行分类的人员不会捕获非法或无法解释的歧视。

4.2 公平的定义

在[16]中，作者研究了政治哲学中的公平定义，并试图将它们与机器学习联系起来。 [60]中的作者在教育和机器学习领域研究了50年的公平定义历史。在[123]中，作者列出并解释了用于算法分类问题中公平性的一些定义。在[113]中，作者研究了公众对计算机科学文献中的某些公平定义的理解。在这里，我们将重申并提供一些使用最广泛的定义，以及从[123]中得到启发的解释。

定义1.（赔率相等）。 [55]提供的均等赔率定义指出：“如果Y?和A独立于Y，则预测变量Y?满足受保护属性A和结果Y的均等赔率。Y. P(Y=1|A=0,Y =y) = P( ? Y=1|A=1,Y =y) , y ? ∈{0,1}".。这意味着，对于受保护的人群和不受保护的（男性和女性）群体，积极类别中的人被正确分配为阳性结果的概率与错误类别中的负类人被分配为阳性结果的概率应相同成员[123]。换句话说，均等赔率定义指出，受保护和不受保护的组对真阳性和假阳性的比率应相等。

定义2（机会均等）。“如果P（Y?=1|A=0，Y=1=P（Y?=1|A=1，Y=1）”[55]。这意味着，受保护的和不受保护的（女性和男性）小组成员中，处于正面类别的人被分配为正面结果的可能性应该相等[123]。换句话说，机会均等定义指出受保护和不受保护的群体应具有相等的真实阳性率。

定义3.（人口平等）。也称为统计平价。“如果P（Y?|A=0）=P（Y?|A=1），则预测变量Y?满足人口统计均等” [43，73]。无论该人是否处于受保护的（例如女性）群体中，阳性结果的可能性[123]应该相同。

定义4.（通过意识公平）。 “如果算法对相似的个体给出相似的预测，则是公平的” [43，73]。换句话说，就为特定任务定义的相似性（逆距离）度量而言，任何两个相似的人都应收到相似的结果。

定义5.（由于不了解而公平）。“只要决策过程中未明确使用任何受保护的属性A，该算法都是公平的” [53，73]。

定义6。（对待平等）。“当两个受保护群体类别的假阴性和假阳性比率相同时，就可以实现对待平等” [14]。

定义7.（测试公平性）。 “如果分数S=S（x）反映了相同的累犯可能性，而与个人的组成员身份R无关，则证明是公平的（经过良好校准）。也就是说，如果对于s的所有值，P（Y=1| S＝s，R＝b）＝P（Y＝1|S＝s，R＝w）”[31]。换句话说，测试公平性定义指出，对于任何预测的概率得分S，受保护和不受保护（女性和男性）组中的人都必须具有相等的正确属于阳性类别的概率[123]。

定义8（反事实公平）。“如果在任何上下文X=x和A=a，（或所有y以及A可获得的任何值a′[73]。反事实公平的定义是基于“直觉认为，如果一个决定在现实世界和反事实世界(即个人属于不同的人口统计群体)中都是相同的，那么这个决定对个人来说就是公平的”。

定义9（关系域中的公平性）。“一种公平的概念，它不仅可以通过考虑个人的属性，而且可以通过考虑个人之间的社会、组织和其他联系，来把握领域中的关系结构” [44]。

定义10（有条件的统计均等）。对于一组合法因子L，如果P（Y?|L=1，A=0）=P（Y?|L=1，A=1），则预测变量Y?满足条件统计奇偶性。[37]。有条件的统计均等指出，在给定一系列合法因素的情况下，受保护和不受保护（女性和男性）群体中的人均应被分配给阳性结果的概率均等[L] [123]。

公平定义分为以下不同类型：

(1) 个人公平。对相似的个体做出相似的预测[43，73]。

(2) 团体公平。平等对待不同的团体[43，73]。

(3) 子组公平。子组公平旨在获得该组的最佳属性和单个公平概念。它与上述概念不同，但是使用它们是为了获得更好的结果。它选择了一个团体公平约束使误报相等、询问该约束是否适用于大量子组等的类似情况[66，67]。

前沿译文丨如何实现算法公平：AI偏见及其克服（上）

表1.将不同的公平概念分为团体型和个人型

重要的是要注意，根据[70]，除非在高度受限的特殊情况下，否则无法立即满足某些公平性约束。在[70]中，作者展示了两个条件的固有不兼容性：校准和平衡正负类。除非在某些约束下，否则不能同时满足这些要求。因此，重要的是要考虑需要使用公平性定义的背景和应用，并相应地使用[115]。要考虑的另一个重要方面是对这些定义可能对个人或群体产生的影响的时间和时域分析。在[80]中，作者表明，当前的公平性定义并不总是有用，也不能促进敏感群体的进步，在某些情况下进行长期分析实际上可能是有害的。他们还表明，测量误差也可以有利于这些公平性定义。因此，它们显示了时域建模和测量在评估公平性标准方面如何重要，并向该方向引入了一系列新的取舍和挑战。在尝试解决与公平相关的问题时，偏见的来源及其类型也很重要。

5.公平的机器学习办法

为了实现公平，已经进行了许多尝试来解决人工智能中的偏见。这些尝试源于AI领域。在本节中，我们将列举AI的不同领域，以及每个社区为消除其方法中的偏见和不公平而开展的工作。表2概述了我们在本调查中关注的不同领域和子领域。

领域

子领域

引用

数据

辛普森悖论

[68]

机器学习

分类

[65] [86] [49]

[72][121][55]

[131][127][59]

[24] [128]

机器学习

回归

[13] [1]

机器学习

帕卡

[111]

机器学习

社区检测

[85]

机器学习

聚类

[30] [7]

机器学习

图嵌入

[21]

机器学习

因果推论

[81][136][137]

[132][95] [94]

[134][69][105]

[133]

自然语言处理

词嵌入

[19][141][50][22]

[138]

自然语言处理

共指解析

[140] [109]

自然语言处理

语言模型

[20]

自然语言处理

句子嵌入

[84]

自然语言处理

机器翻译

[45]

自然语言处理

语义角色标签

[139]

深度学习/表示

学习

可变自动编码器

[82] [4] [92] [38]

深度学习/表示

学习

对抗学习

[76] [129]

表2.针对和讨论机器学习的不同领域和子领域中的偏见和公平的论文清单。

尽管此部分主要是特定于具体领域的，但采取跨领域视角可能会很有用。通常，针对算法偏见的方法可分为三类：

(1) 预处理。预处理技术试图转换数据，以便消除潜在的歧视[39]。如果允许算法修改训练数据，则可以使用预处理[10]。

(2) 进行中处理。进行中处理的技术试图修改和更改最新的学习算法，以消除模型训练过程中的歧视[39]。如果允许更改机器学习模型的学习过程，则可以在模型训练期间使用进行中处理，方法是将更改合并到目标函数中或施加约束[10，13]。

（3）后期处理。训练后，通过访问模型训练过程中未涉及的保持集来进行后期处理[39]。如果该算法只能将学习的模型视为黑盒，而没有任何能力修改训练数据或学习算法，则只能使用后期处理，在该后期处理中，黑盒模型最初分配的标签则会根据在该阶段中的功能重新分配。

表3中显示了一些现有工作的示例及其分类。这些方法不仅限于通用机器学习技术，而且由于AI的普及，它们已扩展到自然语言处理和深度学习的不同领域。从学习公平表示[38、82、92]到学习公平单词嵌入[19、50、141]，已经在不同的AI应用程序和领域中提出了去偏方法。大多数方法试图避免对敏感或受保护的决定做出程序的不道德影响，而其他方法则通过尝试包扩来自敏感团体的用户来针对排斥偏见。此外，有些工作尝试在其方法中满足一个或多个公平性概念。例如分布式学习过程（DLPs），它们试图通过在训练阶段允许受保护的属性但避免他们用来预测时间来同时满足训练差异和影响差异的概念[79]。表4列出了受保护或敏感的属性。它们指出了哪些属性不应该影响依法进行住房贷款或信用卡决策[29]的结果。现有的一些工作试图将敏感属性视为噪声，以忽略其对决策的影响。而某些因果方法尝试使用因果图，而忽略因果图中的某些路径，这些路径会导致敏感属性影响决策结果。下面针对不同领域讨论了不同的缓解偏见的方法和技术，每种方法和技术都针对机器学习不同领域中的不同问题。这可以扩大读者的视野，了解偏见影响系统的位置和方式，并尝试帮助研究人员仔细研究各种新问题，这些问题涉及歧视和偏见可能影响系统结果的潜在位置。

5.1 减轻偏见

为了减轻数据偏见的影响，已提出了一些通用的方法，这些方法主张在使用数据时要有良好的做法，例如，使用数据表作为数据报告数据集创建方法、特征、动机以及偏见的支持文档[12，48]。[11]为NLP应用提出了一种类似的方法。在[90]中对模型提出了类似的建议。[57]中的作者还建议使用类似于食品营养标签的标签，以便对每个任务的每个数据进行更好的分类。除了这些通用技术之外，一些工作还针对更具体类型的偏见。例如，[68]提出了测试数据中辛普森悖论情况的方法，[2，3]提出了自动发现数据中辛普森悖论情况的方法。因果模型和因果图还用于某些工作中，以检测数据中的直接歧视及其预防技术，该技术可以修改数据，从而使预测不存在直接歧视[135]。[54]还致力于防止数据挖掘中的歧视，针对直接、间接和同时的影响。

5.2 公平机器学习

为了解决这个问题，已经提出了各种方法，这些方法可以根据应用满足某些公平性定义或其他新定义。

算法

引用

预处理

进行中处理

后期处理

社区检测

[85]

词嵌入

[22]

优化的预处理

[26]

数据预处理

[63]

分类

[131]

回归

[13]

分类

[65]

分类

[128]

对抗学习

[76]

分类

[55]

词嵌入

[19]

分类

[103]

表3.基于预处理、进行中处理或后期处理的算法的分组。

属性

FHA

ECOA

种族

颜色

国籍

宗教

性别

家族身份

失能

根据CCPA行使的权利

婚姻状况

公共援助的接受者

年龄

表4. [29]中的《公平住房和平等信贷机会法案》（FHA和ECOA）中指定的受保护属性的列表。

5.2.1 公平分类。由于分类是机器学习中的一项艰巨任务，并且已广泛应用于可以与人类直接接触的不同领域，因此重要的是，这些类型的方法必须公平且没有可能损害某些人群的偏见。因此，已经提出了满足公平性某些定义的某些方法[49、65、72、86]。例如，在[121]中，作者试图满足分类任务中的子组公平性，在[55]中满足机会均等和均等几率，在[131]中满足不同的对待和不同的影响，并在[127]中满足均等的几率。其他方法不仅试图满足一些公平性约束，而且还要对测试集的变化保持稳定[59]。其他工作试图对现有的朴素贝叶斯分类器提出三种不同的修改，以实现无歧视的分类[24]。[128]中的作者提出了一个学习公平分类器的通用框架。该框架可用于制定具有公平保证的公平意识分类。

5.2.2 公平回归。 [13]提出了一种公平的回归方法，并对其进行了评估，并引入了一种作为“公平价格”（POF）的措施来衡量准确性-公平性的权衡。他们引入以下三种公平性惩罚措施：

他们引入以下三种公平性惩罚措施：

个人公平：如[13]中所述的个人公平定义，“对于每个交叉对x，y S1，x′，y′S2，对模型w的惩罚是不同的它处理x和x′（由yy′的函数加权），其中S1和S2是与抽样人口不同的群体”。形式上被作为：

前沿译文丨如何实现算法公平：AI偏见及其克服（上）

组公平：“平均而言，两个组的实例应具有相似的标签（由实例标签的接近程度加权）” [13]。

前沿译文丨如何实现算法公平：AI偏见及其克服（上）

混合公平性：“混合公平性要求阳性和阴性标记的交叉对在两组中的平均处理相似” [13]。

前沿译文丨如何实现算法公平：AI偏见及其克服（上）

除了先前的工作，[1]还考虑了关于公平统计（人口统计）平价和有限群体损失这两个概念的公平回归问题。

5.2.3 结构化预测。在[139]中，作者研究了语义角色标记模型和著名的数据集imSitu，并意识到在imSitu中，烹饪图像中只有33％的代理角色是男人，其余67％的烹饪图像中有女性是代理。训练集。他们还注意到，除了数据集中现有的偏差外，该模型还会放大偏差，以便在对数据集训练模型5之后，“人”的偏差会被放大，仅填充烹饪图像的16％。在这些观察下，论文[139]的作者表明，结构化的预测模型具有利用社会偏见的风险。因此，他们提出了一种称为RBA（减少偏差放大）的校准算法。RBA是一种通过在结构化预测中校准预测来消除模型偏差的技术。RBA背后的想法是确保模型预测在训练数据中遵循相同的分布。他们研究了两种情况：多标签对象和视觉语义角色标签分类。他们展示了这些方法如何举例说明数据中现有的偏差。

5.2.4 公平的PCA。在[111]中，作者表明，香草PCA可以夸大一组相同大小的不同人群的重建误差，因此，他们提出了一种公平的方法来为不同人群创建具有相似丰富度的表示形式，而不是使他们难以区分，或隐藏对敏感或受保护属性的依赖。他们显示，即使在性别相同的情况下进行抽样，男性（LFW）数据集中带有标记的脸部上的香草PCA的重建错误率也比女性的脸部低。他们打算引入降维技术，以保持数据集中不同群体和人群的相似保真度。因此，他们引入了Fair PCA并定义了公平的降维算法。他们对Fair PCA的定义（作为优化函数）如下：

5具体来说，是条件随机场（CRF），其中A和B表示两个子组，UA和UB表示矩阵，其行对应于在Rn中包含m个数据点的，包含A和B子组成员的U：

前沿译文丨如何实现算法公平：AI偏见及其克服（上）

他们提出的算法分为以下两个步骤：

(1) 将Fair PCA目标放宽到半定程序（SDP）并求解。

(2) 解决一个线性程序，它将降低解决方案的等级。

5.2.5 社区检测/图形嵌入/聚类。在线社区和社交网络中的不平等也可能是偏见和歧视可能影响人口的另一个地方。例如，在在线社区中，拥有较少朋友或关注者的用户面临着在在线社交媒体中被听见的缺点[85]。另外，现有的方法（例如社区检测方法）可以通过忽略网络中的这些低连接用户或错误地将其分配给不相关的小型社区来扩大这种偏见。在[85]中，作者展示了这种类型的偏见是如何存在的，并通过现有的社区检测方法得以延续。他们提出了一种新的归因社区检测方法，称为CLAN，以减轻对在线社交社区中处境不利群体的伤害。CLAN是一个分为两步的过程，该过程考虑网络结构以及节点属性以解决排除偏差，如下所示：

(1) 使用模块化值检测社区（仅使用网络结构在第1步无监督的情况下）。

(2) 训练分类器以将次要用户分类，使用保留的节点属性将他们归入主要组之一（使用其他节点属性监督第2步）。

还提出了类似于社区检测的领域中的公平方法，例如图嵌入[21]和聚类[7，30]。

5.2.6 公平的因果推理。许多研究人员使用因果模型和图形来解决机器学习中与公平相关的问题。在[81]中，作者在设计公平算法时详细讨论了因果关系及其重要性。关于发现和消除歧视的研究很多，它们使用因果模型和图形来做出与群体或个人的敏感属性无关的决策。例如，在[136]中，作者提出了一个基于因果关系的框架，该框架可以检测数据中的直接和间接歧视以及其去除技术。[137]是先前工作的扩展。[132]很好地概述了作者在这方面所做的大部分工作，讨论了系统，群体和个人层面的歧视，并使用直接或间接的方法解决了每一个方面的问题。歧视。通过扩展先前的工作并对其进行概括，作者在[95]中提出了一种使用因果图进行公平推理的相似途径。在给定任何约束条件的情况下，这将灵活地限制因果图中的某些问题和判别路径。当可以从观察到的分布中识别出特定于路径的效果时，这一点成立。在[94]中，作者将算法公平的形式化从他们以前的工作扩展到了学习最佳策略的设置，该策略受基于公平定义的约束。他们基于一些公平性考虑，通过修改一些现有策略（例如Q学习，值搜索和G估计），描述了几种学习最优策略的策略。在[134]中，作者仅以发现歧视为目标，而没有通过寻找与另一个实例相似的实例并观察受保护属性的变化是否会改变决策结果来消除歧视。如果是这样，他们宣布存在歧视。在[69]中，作者定义了以下两种歧视概念：未解决的歧视和代理歧视，如下：

未解决的歧视：“因果图中的变量V，如果存在从A到V的有向路径但没有被解决变量阻塞，并且V本身是未解决的，则表明存在未解决的判别”[69]。

代理歧视：“如果存在从A到V的定向路径被代理变量阻止，并且V本身不是代理，则因果图中的变量V表现出潜在的代理歧视”[69]。他们提出了预防和避免代理歧视的方法。他们还表明，没有观察标准可以确定预测变量是否表现出未解决的歧视；因此，需要合并因果推理框架。

在[105]中，作者提出了因果风险，而不是使用通常的风险差异RD = p1? p2，差异RDc= p1-p2c以便发现因果关系。他们将p2c 定义为：

前沿译文丨如何实现算法公平：AI偏见及其克服（上）