首页 > 技术迭代 > 内容

矮化女性和少数民族，OpenAI的GPT模型成为AI歧视的重灾区

发布于：2024-06-28 编辑：匿名来源：网络

机器学习技术近年来突飞猛进，许多强大AI横空出世。

以知名科研机构OpenAI开发的语言生成模型GPT为例。

现在它可以写文章、帮人做报告、自动查询信息，给用户带来了很大的帮助和方便。

然而，最近发表的几篇论文指出，包括 GPT 在内的一些人工智能模型生成的结果包含基于性别和种族的偏见。

这些AI模型在商业领域的应用，必然会导致对这些有偏见的对象的歧视加强。

卡内基梅隆大学的 Ryan Steed 和乔治华盛顿大学的 Aylin Caliskan 两位研究人员最近发表了一篇论文《无监督的方式训练的图像表示法包含类似人类的偏见》（Image Represnetations Learned With Unsupervised Pre-Training Contain Human-like Biases, arXiv:.2v3）。

研究人员对OpenAI基于GPT-2和谷歌的SimCLR这两种去年发布的图像生成模型开发的iGPT进行了系统测试，发现它们在种族、肤色、性别等指标上几乎没有差异。

复制人类测试对象的偏见和刻板印象。

在一项测试中，研究人员使用机器生成的男性和女性头像照片作为基础，并使用 iGPT 来完成（生成）上半身图像。

最夸张的事情发生了：在女性生成的所有结果中，超过一半的生成图像穿着比基尼或低胸上衣；在男性结果图像中，约 42.5% 的图像穿着职业相关的上衣。

如衬衫、西装、和服、医生大衣等；赤裸上身或穿背心的结果只有7.5%。

造成这一结果的直接技术原因可能是iGPT使用的自回归模型的机制。

研究人员进一步发现，当使用 iGPT 和 SimCLR 将照片与职业相关名词联系起来时，男性更有可能将其与“商业”和“办公室”等名词联系起来，而女性则更有可能将其与“孩子”联系起来、《家庭》等协会；白人更多地与工具联系在一起，而黑人更多地与武器联系在一起。

这篇论文还比较了 iGPT 和SimCLR上不同种族肤色的人的肖像照片的“愉悦感”，发现阿拉伯穆斯林人的照片普遍缺乏愉悦感。

虽然iGPT和SimCLR这两个模型的具体工作机制有所不同，但研究人员通过本文的标题指出了这些偏差现象背后的一个共同原因：无监督学习。

两种模型都使用无监督学习，这是一种机器学习方法，可以自动对输入数据进行分类或分组，而无需提供预先注释的训练数据。

无监督学习的优点是数据标注是一项繁琐且耗时的任务。

受注释者个人水平和条件的影响，很难保证高水平的准确性，而且注释也会体现出人工的偏差和歧视。

矮化女性和少数民族，OpenAI的GPT模型成为AI歧视的重灾区

某些领域的数据缺乏标记数据集；无监督学习在这样的条件下仍然可以表现良好，并且近年来变得非常流行。

然而，这篇新论文似乎证明，使用无监督学习并不能避免一些最常见的人类偏见和歧视。

研究人员认为，这些使用无监督学习的机器学习算法所体现的偏见和歧视的根源仍然是训练数据。

例如，在网络图片中，有更多与职业相关的男性照片，还有更多女性穿着很少衣服的照片。

。

另一个原因是这些模型使用的自回归算法。

在机器学习领域，自回归算法的偏差问题是众所周知的，但解决这个问题的努力并不多。

因此，机器学习算法从原始数据集中学习一切，包括这些数据集反映的有害偏见和歧视。

此前，号称“一亿参数”的OpenAI最新语言生成模型GPT-3也在发表的论文中表示，由于训练数据来自互联网，偏差不可避免，但仍然发布并商业化。

上个月，斯坦福大学和麦克马斯特大学的研究人员发布了另一篇论文《大型语言模型中的持久反穆斯林偏见》，证实 GPT-3 等大规模语言生成模型对于穆斯林等常见刻板印象的受害者是有效的。

，确实存在严重的歧视问题。

具体来说，当使用相关词构建句子时，GPT-3 经常将穆斯林与枪击、炸弹、谋杀和暴力联系起来。

在另一项测试中，研究人员上传了一张穆斯林女孩的照片，并让模型自动生成标题。

但文字中明显存在过度的遐想和暴力的延伸，包括“我不知道为什么，我浑身是血”这句话。

语言模型是小样本学习者，但它们也是偏差促进者。

而当这类As算法在现实生活中使用得更多时，偏见和歧视就会进一步强化。

iGPT及其背后的OpenAI GPT技术现已发展到第三代。

它的能力确实非常强大，正如我们之前报道过的，它几乎是无所不能的，因此受到了很多商业组织的青睐和采用。

微软是其最知名的客户之一。

去年9月，微软CTO Kevin Scott宣布将与OpenAI合作，并获得GPT-3的独家授权，将其技术应用于微软用户的各类产品和AI解决方案中。

微软尚未透露将把GPT-3应用到哪些产品上，但考虑到微软产品的数十亿用户，情况非常令人担忧。

例如，微软近年来在Word、PPT等产品中推广的自动信息查询、文本补全和图像设计功能，当用户输入特定单词或添加照片时，如果恰好陷入了偏见GPT-3 Trap，结果会很糟糕。

不仅是GPT，根据上面提到的较新的论文，所有使用无监督学习的算法都可能包含这样的偏差。

现在因为无监督学习已经非常流行，它已经成为自然语言处理、计算机视觉等领域非常关键的底层技术。

例如，翻译对于人际交往非常重要，但一个不正确的翻译结果或者算法强化的偏见事件至少可以切断人与人之间的联系，更严重的情况下甚至可能造成不可估量的人身和财产损失。

论文作者 Steed 和 Caliskan 呼吁机器学习研究人员更好地识别和记录训练数据集的内容，以便将来找到更好的方法来减少模型中的偏差，并在发布模型之前进行更多测试。

，尽量避免将算法强化的偏差带入模型中。

站长声明

标签：

上一篇：“第一批麻辣烫”来了！杨国福赴港IPO，特许经营模式待试

下一篇：马斯克为何离开加州前往德克萨斯州？

从无拘无束的时间争夺到酷文化的崛起

本文原作者：王每君，艾范儿授权转载。 “本周你平均每天看屏幕的时间为 7 小时 36 分钟，比上周增加了 15%。 ”有多少人像我一样，每天花在手机上的时间越来越多。工作、娱乐、社交、生活都离不开手机。手机已经成为个人最不可或缺的设备。眼球经济里，巨头和巨头在手机屏

06-21
Keyssa 和 Novastar 联手设计和销售具有非接触式连接功能的显示组件

Keyssa 和 Novastar Electronics Technology (Novastar) 宣布建立战略合作伙伴关系。两家公司将设计和销售具有非接触式连接的显示组件。具有非接触式连接的显示组件 2020 年 2 月 - 高速非接触式连接技术领导者 Keyssa 与 LED 显示解决方案领先供应商 Novastar 宣布建立战略

06-06
纺织行业SaaS“有树派”完成数百万美元Pre-A轮融资，BAI独家投资

投资界8月6日消息，纺织行业垂直SaaS产品“有树派”已完成多轮融资-百万美元Pre-A轮融资投资方为BAI贝塔斯曼亚洲投资基金。本轮融资资金将主要用于产品研发和市场推广。联合创始人周文宇介绍，优数派专注于打造纺织行业信息高速公路，为大型纺织企业客户提供定制化的全生命

06-17
深创投新一届领导班子是谁？

近日，有媒体报道深圳创投将迎来高层变动：自2009年开始执掌深圳创投的姚董事长将于明年年满60岁退休。现任集团党委副书记书记和总裁左丁将接任其职务。深高新新投资人掌门人刘苏华考虑接替左丁出任集团总裁，目前正处于组织考察阶段。对此消息，深创投回应称，目前尚无准

06-18
设备企业售后服务SaaS厂商“盛源成”获数千万元A轮融资

3月5日消息，致力于为设备企业提供基于物联网的售后服务SaaS厂商“盛源成”获赛亿产业资本投资数千万元A轮融资。本轮融资将用于加快产品开发迭代、加快市场覆盖。 “盛源成”为设备企业提供基于物联网的售后服务SaaS软件，其中包括物联网软件和硬件。

06-18
喇嘛书院完成数千万元A轮融资，由光速中国投资

据投资界12月22日消息，据DASCAPITAL资本官方微信报道，喇嘛书院近日宣布已完成数十轮融资数百万人民币A轮融资。，本轮融资投资方为光速中国，点石资本担任独家投资方。　　据悉，本轮融资资金将用于支持喇嘛书院建设内容生态、推动粉丝社区运营以及电商渠道建设。　　辣

06-18
正月初一迎新年，阿里云创业者计划助您龙年创业，一路顺风无忧！

为初创企业提供AIGC技术交流、与阿里云、投资机构面对面等服务。其中，有与阿里云专家的闭门对话，包括研发与创新、销售与增长、组织与管理等话题的成长工作访谈，并定期邀请优秀企业家一起讨论；我们还不定期举办前沿技术研讨会和产学研投资研讨会。共创多方对话、共赢未来

06-17
非线数码科技有限公司获海康威视战略投资

投资界新闻、浙江非线数码科技有限公司（非洲数码科技有限公司）、杭州海康威视数字科技有限公司战略投资.有限公司（海康威视）海康威视总部签署战略投资协议。本次投资完成后，海康威视将成为阿里巴巴第二大股东。此次合作，双方将通过业务和技术资源的深度整合，强化创新

06-17
新能源汽车再次打响价格战

已是年末了。如果我们回顾今年新能源汽车企业所做的事情，我们可以看到无数的突破和进步，也有无数的变化值得回顾，但如果要寻找最常见的举动，那就是“价格战”。进入一年的最后一个月，大家都不约而同地抛出年终销售信息，导致这场旷日持久的“价格战”从年初一直持续到

06-18
如果没有黑科技，我们在IJCAI 2016上会看到什么？

IJCAI已在纽约举办了第五天。不过，与CVPR大会期间不断充斥屏幕的黑科技相比，IJCAI似乎低调得多。这几天除了微软曝光的演讲PPT：《深度学习在语义理解上不再难有用武之地》（NLP相关）；人工智能哲学专家Aaron Slaman宣布演讲：《AI的发展已经失去了方向？》（基础理论和架

06-17
乐嘉能源潘多昭：定位为用户侧标准储能产品提供商，积极探索行业合作，

，由于世界能源问题，储能作为新趋势进入公众视野。然而，在经历了数十年起起落落的储能行业，是否还存在新的行业机会？参赛者的优势是什么？储能领域有三条明确的路线，一是发电侧，二是电网侧，三是用户侧。不同的路线选择将决定公司在储能行业的地位，其商业模式也将彻底

06-18
XREAL完成新一轮6000万美元战略融资

【2018年1月30日，北京】——全球领先的AR眼镜品牌XREAL今日宣布，公司已完成新一轮1万美元战略融资。本轮融资的注入使得XREAL迄今为止的融资总额达到3亿美元。据行业分析师评估，XREAL目前估值超过10亿美元。据悉，本轮融资将用于产品研发以及光学引擎生产基地的扩建，这

06-17