风筝发电!英国人民将用上450m高空送来的电力
06-17
如果让你在网络上选择大模型的中文教材,你会去哪里找资料呢?是知乎、豆瓣还是微博?为了构建高质量的中文指令微调数据集,研究团队测试了这些社交媒体,希望找到训练大型模型的最佳中文预测。
答案一定会让你大吃一惊——弱智。
弱智吧是百度贴吧的一个小版块。
这是一个非常神奇的地方。
酒吧成员热衷于创作和分享带有双关语、一词多义、因果倒置、谐音模因等逻辑陷阱的内容,有些帖子甚至带有一定的哲学色彩。
但是,用这些东西来训练一个全知全能的伟大模型?能做到吗?别着急,我们先来看看这个研究团队做了哪些实验。
这是一篇标题为《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》的论文。
作者来自国内外多所大学。
简单来说,他们提出了一个中文指令微调数据集COIG-CQIA(全称:Chinese OpenInstruction Generalist-Quality Is All You Need)。
对于中国大型模型开发者来说,当前的关键挑战之一是没有高质量的中文数据集。
研究团队认为,中国的各种社交媒体和论坛应该是大型模型训练的良好语料来源。
因此,为了给这个数据集取材,他们从不同的社交平台(例如问答社区、维基百科、考试材料、现有的 NLP 数据集等)收集了高质量的人类撰写的文本集合。
这些文本经过严格筛选和精心处理,最终构建了这个数据集。
论文称,该数据集的目的是构建一个服务于大型中文模型的多样化、广泛的指令调优数据集,从而更好地使模型行为与中文环境下的人类交互一致,提高响应能力指示。
。
这里还有一个科普概念,那就是大模型虽然有很强的知识储备,但它是为了解决一般的自然语言处理任务而设计的,所以它没有办法处理具体的问题。
此时,需要对其进行“微调”,使其输出满足特定问题的期望。
指令微调是指明确模型应执行的任务类型、输入要求、输出格式等具体细节后,才能给出正确的结果。
例如,如果我用中文问一个问题并要求模型用西班牙语回答,模型的开发人员将不得不对模型进行微调,以满足我后半句话的要求。
这时候就需要一个“指令微调数据集”。
此类数据集通常包含大量的“指令-输出”对,其中每一对都包含一条明确的指令(instruction),即用户希望模型执行的任务描述,以及对应的理想输出(output) ,即模型收到这条指令后应该生成或执行的结果。
COIG-CQIA就是这样一个数据集。
研究团队首先对数据集进行了严格的筛选和清洗,确保数据集相对健康。
具体做法是根据预设的过滤标准去除不相关或低质量的文本。
这可能包括删除广告、无意义的垃圾邮件、包含敏感信息或违反社区规则的帖子。
随后,团队还进行了人工干预:对处理后的文本进行人工审核,确保其内容正确并符合预期的语义和知识标准,同时也确保数据集与真实的中文用户交互模式一致。
尤其是在智障吧台词等隐喻深刻、模型无法完全理解采集到的笑话含义的场景下,需要人工标注,提供清晰的指令并输出示例,为模型微调提供准确的训练信号。
。
完成整理工作后,研究团队利用COIG-CQIA数据集对多个开源的中国大型模型进行了微调。
为了评估这些不同来源的数据的质量,团队使用来自不同社交网站的数据对同一模型进行了微调并进行了测试。
在论文中展示的一系列经过微调的 Yi 模型的评测表现中,出现了神奇的一幕。
在 Yi-6B 的性能对比中,在多个评分(开放式问答、头脑风暴、分类问题、生成问题、封闭式问答、编程)中,使用 Retarded Mind Bar 数据训练的模型在多个类别中表现更好。

这是最好的。
在对经过微调的Yi-34B的评测中,基于弱智吧训练出来的数据的表现几乎在所有领域都直接排名第一,整体得分遥遥领先。
除了性能之外,COIG-CQIA还使用开源评估框架SafetyBench测试了其安全性能。
可以看到,CQIA-Sub-6B的SafetyBench高达81.7,高于GPT 3.5的SafetyBench。
如此高的分数意味着COIG-CQIA能够准确识别风险,区分有害信息、潜在非法内容、隐私敏感信息、误导性建议等不安全选项,并选择最符合安全原则的答案。
也就是说,它具有一定的商业化潜力。
其中,弱智酒吧的表现再次大放异彩。
超过GPT3.5。
论文也对此感到惊讶,作者试图做一个分析:“有趣的是,延迟条数据集最终在多个子集的平均排名中排名第二。
我们认为这可能是因为延迟条的数据特征具有它有助于增强模型的逻辑推理能力,使其能够在大多数遵循指令的任务中表现良好。
”读完这篇论文后,我去智障吧看了这些天才语料库,是有人整理的。
弱智吧经典语录:玉皇大帝住在平流层()还是对流层?不允许携带导盲犬。
是给盲人用的还是给导盲犬用的?我可以空腹吃东西吗?购买变形金刚保险时,应该购买车险还是个人保险?我买了一斤莲藕,为什么有一半是空的?雷公母放电的是直流电还是交流电?每天吃感冒药还会感冒吗?殴打孕妇算不算集体殴打?如果在投降途中被抓,还算投降吗?吃止痛药和打架算作弊吗?夹在门里的核桃还能补脑吗?考虑到大型模型最缺乏的就是逻辑能力,看来这些更像是脑筋急转弯的问答确实是大型语言模型的良好语料库。
最近在智障吧的首页上,排名靠前的帖子也符合这种情况:“所有工作都可能被人工智能取代,但智障不会。
”确实,这是有道理的。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-17
06-18
06-17
最新文章
首先告诉我什么是智能汽车!
盲盒明星卡的暴利与泡沫:2元卡卖700万,直播卖卡月入百万
黑色星期五轰轰烈烈地回来了,结果这些中国企业扛起了全场
锂电池隔膜疯狂扩产:兴源材料欲夺回C位?
当我考上缅语专业时:凌晨三点我还在走廊里背单词,毕业后,我不仅仅是一名翻译者
被遗弃,被收获?老年人上网到底有多难?
海外日报 -今年,我国自主研发游戏海外实际销售收入实现两位数增长;三星电子正式成立机器人业务团队36氪海外·15分钟前
腾讯音乐:爱、相信、坚持