首页 > 技术迭代 > 内容

没想到，中文网络上最好的大模型语料库是：弱智吧

发布于：2024-06-28 编辑：匿名来源：网络

如果让你在网络上选择大模型的中文教材，你会去哪里找资料呢？是知乎、豆瓣还是微博？为了构建高质量的中文指令微调数据集，研究团队测试了这些社交媒体，希望找到训练大型模型的最佳中文预测。

答案一定会让你大吃一惊——弱智。

弱智吧是百度贴吧的一个小版块。

这是一个非常神奇的地方。

酒吧成员热衷于创作和分享带有双关语、一词多义、因果倒置、谐音模因等逻辑陷阱的内容，有些帖子甚至带有一定的哲学色彩。

但是，用这些东西来训练一个全知全能的伟大模型？能做到吗？别着急，我们先来看看这个研究团队做了哪些实验。

这是一篇标题为《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》的论文。

作者来自国内外多所大学。

简单来说，他们提出了一个中文指令微调数据集COIG-CQIA（全称：Chinese OpenInstruction Generalist-Quality Is All You Need）。

对于中国大型模型开发者来说，当前的关键挑战之一是没有高质量的中文数据集。

研究团队认为，中国的各种社交媒体和论坛应该是大型模型训练的良好语料来源。

因此，为了给这个数据集取材，他们从不同的社交平台（例如问答社区、维基百科、考试材料、现有的 NLP 数据集等）收集了高质量的人类撰写的文本集合。

这些文本经过严格筛选和精心处理，最终构建了这个数据集。

论文称，该数据集的目的是构建一个服务于大型中文模型的多样化、广泛的指令调优数据集，从而更好地使模型行为与中文环境下的人类交互一致，提高响应能力指示。

。

这里还有一个科普概念，那就是大模型虽然有很强的知识储备，但它是为了解决一般的自然语言处理任务而设计的，所以它没有办法处理具体的问题。

此时，需要对其进行“微调”，使其输出满足特定问题的期望。

指令微调是指明确模型应执行的任务类型、输入要求、输出格式等具体细节后，才能给出正确的结果。

例如，如果我用中文问一个问题并要求模型用西班牙语回答，模型的开发人员将不得不对模型进行微调，以满足我后半句话的要求。

这时候就需要一个“指令微调数据集”。

此类数据集通常包含大量的“指令-输出”对，其中每一对都包含一条明确的指令（instruction），即用户希望模型执行的任务描述，以及对应的理想输出（output），即模型收到这条指令后应该生成或执行的结果。

COIG-CQIA就是这样一个数据集。

研究团队首先对数据集进行了严格的筛选和清洗，确保数据集相对健康。

具体做法是根据预设的过滤标准去除不相关或低质量的文本。

这可能包括删除广告、无意义的垃圾邮件、包含敏感信息或违反社区规则的帖子。

随后，团队还进行了人工干预：对处理后的文本进行人工审核，确保其内容正确并符合预期的语义和知识标准，同时也确保数据集与真实的中文用户交互模式一致。

尤其是在智障吧台词等隐喻深刻、模型无法完全理解采集到的笑话含义的场景下，需要人工标注，提供清晰的指令并输出示例，为模型微调提供准确的训练信号。

。

完成整理工作后，研究团队利用COIG-CQIA数据集对多个开源的中国大型模型进行了微调。

为了评估这些不同来源的数据的质量，团队使用来自不同社交网站的数据对同一模型进行了微调并进行了测试。

在论文中展示的一系列经过微调的 Yi 模型的评测表现中，出现了神奇的一幕。

在 Yi-6B 的性能对比中，在多个评分（开放式问答、头脑风暴、分类问题、生成问题、封闭式问答、编程）中，使用 Retarded Mind Bar 数据训练的模型在多个类别中表现更好。

没想到，中文网络上最好的大模型语料库是：弱智吧

这是最好的。

在对经过微调的Yi-34B的评测中，基于弱智吧训练出来的数据的表现几乎在所有领域都直接排名第一，整体得分遥遥领先。

除了性能之外，COIG-CQIA还使用开源评估框架SafetyBench测试了其安全性能。

可以看到，CQIA-Sub-6B的SafetyBench高达81.7，高于GPT 3.5的SafetyBench。

如此高的分数意味着COIG-CQIA能够准确识别风险，区分有害信息、潜在非法内容、隐私敏感信息、误导性建议等不安全选项，并选择最符合安全原则的答案。

也就是说，它具有一定的商业化潜力。

其中，弱智酒吧的表现再次大放异彩。

超过GPT3.5。

论文也对此感到惊讶，作者试图做一个分析：“有趣的是，延迟条数据集最终在多个子集的平均排名中排名第二。

我们认为这可能是因为延迟条的数据特征具有它有助于增强模型的逻辑推理能力，使其能够在大多数遵循指令的任务中表现良好。

”读完这篇论文后，我去智障吧看了这些天才语料库，是有人整理的。

弱智吧经典语录：玉皇大帝住在平流层（）还是对流层？不允许携带导盲犬。

是给盲人用的还是给导盲犬用的？我可以空腹吃东西吗？购买变形金刚保险时，应该购买车险还是个人保险？我买了一斤莲藕，为什么有一半是空的？雷公母放电的是直流电还是交流电？每天吃感冒药还会感冒吗？殴打孕妇算不算集体殴打？如果在投降途中被抓，还算投降吗？吃止痛药和打架算作弊吗？夹在门里的核桃还能补脑吗？考虑到大型模型最缺乏的就是逻辑能力，看来这些更像是脑筋急转弯的问答确实是大型语言模型的良好语料库。

最近在智障吧的首页上，排名靠前的帖子也符合这种情况：“所有工作都可能被人工智能取代，但智障不会。

”确实，这是有道理的。

站长声明

标签：

上一篇：全球AI医学影像辅助诊断发明专利排行榜公布，商汤位列全球第五

下一篇：被算法解雇，无处申诉，Amazon Flex“员工”无法忍受被算法支配的恐惧

风筝发电！英国人民将用上450m高空送来的电力

风筝能发电！英国人民将利用450m高空送出的电力，在苏格兰南部沿海地区建设英国首个非实验性消费级风筝电站，处于世界前列。该发电站将位于斯特兰拉尔地区，并得到荷兰壳牌石油公司和英国政府支持的 Kite Power Solutions (KPS) 公司的支持。风筝展开时宽约40m，可飞至米高

06-17
首次发布 -诚科微电子完成数亿元C轮融资，由新潮创投

投资圈（ID：pedaily）领投。 5月16日，上海诚科微电子科技有限公司（简称“诚科微电子”））完成数亿元C轮融资。本轮融资由新潮创投领投，鼎芯资本、澜石资本跟投。云秀资本担任本轮融资独家财务顾问。随着ChatGPT的快速普及，全球掀起了超大型模型建设热潮，带来了更高

06-17
“深圳深研生物科技”完成超3亿元B+轮融资，越秀产业基金领投

据投资界（ID：pedaily）2月21日消息，近日，深圳市深研生物科技有限公司完成了超3亿元B+轮融资，越秀产业基金领投。深圳市深研生物科技有限公司（以下简称“深研生物”）宣布完成超3亿元B+轮融资。本轮融资由越秀产业基金领投，大辰跟投财智、悦客金融、天士力资本、亚商

06-17
闽发铝业在深交所挂牌，获中科投资、海通开元投资

据投资界4月28日消息，福建闽发铝业股份有限公司（以下简称“闽发铝业”）今日在深圳证券交易所挂牌上市。中小板发行价为15.18元/股，市盈率为54.21倍。据悉，公司本次拟发行10,000股。本次发行后股本总额为0,000股，占发行后总股本的25.03%，共募集资金6.53亿元。　　招

06-17
亿晶光电完成A股重组上市，12月31日收到建银国际投资

投资界消息。据《常州日报》报道，亿晶光电科技股份有限公司A股重组完成。 12月30日，公司在上海证券正式挂牌上市，成为目前在上海A股市场上市的国内唯一一家纯太阳能电池组件制造商。　　重组后的亿晶光电股票流通股本为34,000股，公司总股本为70,000股。前日收盘价为20.

06-18
十年过去了，回顾iPhone诞生的每一个细节（上）

雷锋网记者：十年前的1月9日，苹果推出第一代iPhone，重新定义手机，并已从此带我们进入了智能手机时代。十年后的今天，让我们回顾一下科技史上这一伟大产品的诞生。本文由雷锋网整理自互联网历史播客。原文是作者BrianMccullough。下半部分链接：点我。 2019年1月9日，乔

06-18
看见亚洲之星：阿里云 X KrASIA 全球初创企业加速器DemoDay新加坡-泰国联合场圆满落幕：Protos Labs夺得亚洲之星

见证亚洲之星：阿里云今天在网上举行，10 家决赛入围者的线上路演将接受由祥峰投资 (Vertex Ventures)、Wavemaker Partners、Jubilee Capital Management 和 Qualgro Partners 组成的评审团的严格评审。 Vertext Ventures（东南亚及印度）投资总监梁佩欣在听完所有入围选手的

06-17
社交电商悟空掌柜完成1亿元A轮融资

据投资界2月26日消息，社交电商悟空掌柜近日完成1亿元A轮融资。本轮领投方为广发信德，永华投资跟投。悟空空子成立于2017年，是一家社交电商平台，通过线上销售为用户提供各种优惠、折扣商品，并为用户提供送货上门等服务。它还可以发起与朋友的群组共享和其他社交活动。

06-18
成立5个月后估值突破10亿元，自动驾驶卡车公司千瓜科技完成近2亿元融资

据投资界（ID：pedaily）12月23日消息，据36氪报道，自动驾驶卡车公司千瓜科技已完成融资近期完成约2亿元融资，估值超10亿元。本轮投资方包括顺丰控股、百度、小鹏汽车、IDG资本等。千谷科技成立于今年7月。是一家基于自动驾驶技术提供干线物流运输服务的初创公司。它是由

06-18
央行：6月国开行、进出口银行、农发行净归还抵押补充贷款440亿元

央行：6月份，国家开发银行、进出口银行、农业发展银行净偿还抵押补充贷款440亿元。元。期末抵押补充贷款余额6亿元。

06-18
雾芯科技2020年由盈转亏，营收同比增长146.5%至38亿元

美股上市公司雾芯科技（RLX.US）发布四季度及全年财报报告。财报显示，雾芯科技第四季度营收16.2亿元，同比增长44.5%；毛利率为42.9%，去年同期为39.1%；净亏损2.4亿元，而去年同期净利润1万元。

06-17
连续四年聚焦创新，南京市委一号文件发布

上头条。 1月4日，新年第一个工作日，南京创新城市建设推进会召开，南京新年“第一次会”再次聚焦创新。市委一号文件《关于新发展阶段全面建设创新名城的若干政策措施》发布。值得一提的是，这是南京连续第四年制定并印发以创新为主题的市委一号文件。文件提出，推动高新技

06-17