从无拘无束的时间争夺到酷文化的崛起
06-21
机器学习技术近年来突飞猛进,许多强大AI横空出世。
以知名科研机构OpenAI开发的语言生成模型GPT为例。
现在它可以写文章、帮人做报告、自动查询信息,给用户带来了很大的帮助和方便。
然而,最近发表的几篇论文指出,包括 GPT 在内的一些人工智能模型生成的结果包含基于性别和种族的偏见。
这些AI模型在商业领域的应用,必然会导致对这些有偏见的对象的歧视加强。
卡内基梅隆大学的 Ryan Steed 和乔治华盛顿大学的 Aylin Caliskan 两位研究人员最近发表了一篇论文《无监督的方式训练的图像表示法包含类似人类的偏见》(Image Represnetations Learned With Unsupervised Pre-Training Contain Human-like Biases, arXiv:.2v3)。
研究人员对OpenAI基于GPT-2和谷歌的SimCLR这两种去年发布的图像生成模型开发的iGPT进行了系统测试,发现它们在种族、肤色、性别等指标上几乎没有差异。
复制人类测试对象的偏见和刻板印象。
在一项测试中,研究人员使用机器生成的男性和女性头像照片作为基础,并使用 iGPT 来完成(生成)上半身图像。
最夸张的事情发生了:在女性生成的所有结果中,超过一半的生成图像穿着比基尼或低胸上衣;在男性结果图像中,约 42.5% 的图像穿着职业相关的上衣。
如衬衫、西装、和服、医生大衣等;赤裸上身或穿背心的结果只有7.5%。
造成这一结果的直接技术原因可能是iGPT使用的自回归模型的机制。
研究人员进一步发现,当使用 iGPT 和 SimCLR 将照片与职业相关名词联系起来时,男性更有可能将其与“商业”和“办公室”等名词联系起来,而女性则更有可能将其与“孩子”联系起来、《家庭》等协会;白人更多地与工具联系在一起,而黑人更多地与武器联系在一起。
这篇论文还比较了 iGPT 和SimCLR上不同种族肤色的人的肖像照片的“愉悦感”,发现阿拉伯穆斯林人的照片普遍缺乏愉悦感。
虽然iGPT和SimCLR这两个模型的具体工作机制有所不同,但研究人员通过本文的标题指出了这些偏差现象背后的一个共同原因:无监督学习。
两种模型都使用无监督学习,这是一种机器学习方法,可以自动对输入数据进行分类或分组,而无需提供预先注释的训练数据。
无监督学习的优点是数据标注是一项繁琐且耗时的任务。
受注释者个人水平和条件的影响,很难保证高水平的准确性,而且注释也会体现出人工的偏差和歧视。

某些领域的数据缺乏标记数据集;无监督学习在这样的条件下仍然可以表现良好,并且近年来变得非常流行。
然而,这篇新论文似乎证明,使用无监督学习并不能避免一些最常见的人类偏见和歧视。
研究人员认为,这些使用无监督学习的机器学习算法所体现的偏见和歧视的根源仍然是训练数据。
例如,在网络图片中,有更多与职业相关的男性照片,还有更多女性穿着很少衣服的照片。
。
另一个原因是这些模型使用的自回归算法。
在机器学习领域,自回归算法的偏差问题是众所周知的,但解决这个问题的努力并不多。
因此,机器学习算法从原始数据集中学习一切,包括这些数据集反映的有害偏见和歧视。
此前,号称“一亿参数”的OpenAI最新语言生成模型GPT-3也在发表的论文中表示,由于训练数据来自互联网,偏差不可避免,但仍然发布并商业化。
上个月,斯坦福大学和麦克马斯特大学的研究人员发布了另一篇论文《大型语言模型中的持久反穆斯林偏见》,证实 GPT-3 等大规模语言生成模型对于穆斯林等常见刻板印象的受害者是有效的。
,确实存在严重的歧视问题。
具体来说,当使用相关词构建句子时,GPT-3 经常将穆斯林与枪击、炸弹、谋杀和暴力联系起来。
在另一项测试中,研究人员上传了一张穆斯林女孩的照片,并让模型自动生成标题。
但文字中明显存在过度的遐想和暴力的延伸,包括“我不知道为什么,我浑身是血”这句话。
语言模型是小样本学习者,但它们也是偏差促进者。
而当这类As算法在现实生活中使用得更多时,偏见和歧视就会进一步强化。
iGPT及其背后的OpenAI GPT技术现已发展到第三代。
它的能力确实非常强大,正如我们之前报道过的,它几乎是无所不能的,因此受到了很多商业组织的青睐和采用。
微软是其最知名的客户之一。
去年9月,微软CTO Kevin Scott宣布将与OpenAI合作,并获得GPT-3的独家授权,将其技术应用于微软用户的各类产品和AI解决方案中。
微软尚未透露将把GPT-3应用到哪些产品上,但考虑到微软产品的数十亿用户,情况非常令人担忧。
例如,微软近年来在Word、PPT等产品中推广的自动信息查询、文本补全和图像设计功能,当用户输入特定单词或添加照片时,如果恰好陷入了偏见GPT-3 Trap,结果会很糟糕。
不仅是GPT,根据上面提到的较新的论文,所有使用无监督学习的算法都可能包含这样的偏差。
现在因为无监督学习已经非常流行,它已经成为自然语言处理、计算机视觉等领域非常关键的底层技术。
例如,翻译对于人际交往非常重要,但一个不正确的翻译结果或者算法强化的偏见事件至少可以切断人与人之间的联系,更严重的情况下甚至可能造成不可估量的人身和财产损失。
论文作者 Steed 和 Caliskan 呼吁机器学习研究人员更好地识别和记录训练数据集的内容,以便将来找到更好的方法来减少模型中的偏差,并在发布模型之前进行更多测试。
,尽量避免将算法强化的偏差带入模型中。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-21
06-18
06-18
06-17
06-18
06-17
最新文章
首先告诉我什么是智能汽车!
盲盒明星卡的暴利与泡沫:2元卡卖700万,直播卖卡月入百万
黑色星期五轰轰烈烈地回来了,结果这些中国企业扛起了全场
锂电池隔膜疯狂扩产:兴源材料欲夺回C位?
当我考上缅语专业时:凌晨三点我还在走廊里背单词,毕业后,我不仅仅是一名翻译者
被遗弃,被收获?老年人上网到底有多难?
海外日报 -今年,我国自主研发游戏海外实际销售收入实现两位数增长;三星电子正式成立机器人业务团队36氪海外·15分钟前
腾讯音乐:爱、相信、坚持