基于ChatGLM-6B构建个人知识库

发布于:2024-10-24 编辑:匿名 来源:网络

舒老师之前教过你如何使用微调来创建垂直领域的LLM专用模型。但微调一方面需要专业知识,通常需要大量的计算资源和时间,以便在不同的超参数设置上训练多个模型并选择最佳的一个。

另一方面,动态扩展性比较差,对原有的进行添加和修改。数据必须再次微调。

总体来说,对于非专业人士来说并不友好。 ChatGLM-6B部署及P-Tuning微调实践 今天舒老师教大家如何在垂直领域实现专业问答,无需微调。

使用ChatGLM-6B + langchain实现个人知识库非常简单易用。技术原理 项目实施原理如下图所示。

该过程包括加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问题向量化 -> 匹配文本向量中与问题向量 k 最相似的顶部 -> 将匹配的文本添加到提示中,如下所示上下文和问题 -> 提交给法学硕士以生成答案。从上面可以看出,其核心技术是向量嵌入。

用户知识库的内容通过嵌入的方式存储在向量知识库中。那么每次用户提出问题的时候,也会经过embedding,利用向量相关算法(比如余弦算法)来寻找最佳匹配。

几个知识库片段,使用这些知识库片段作为上下文,并将它们与用户问题一起提交给LLM寻求答案。这很容易理解。

典型的提示模板如下: 代码语言:javascript 复制“”” 已知信息:{context} 根据以上已知信息,简洁、专业地回答用户的问题。如果无法从中得到答案,请说“Based”关于已知信息 该信息无法回答问题”或“未提供相关信息不足”。

答案中不允许添加虚构成分。请用中文回答。

问题是:{问题}“””关于向量嵌入的更多信息可以参考我之前写的一篇文章。 ChatGPT爆向量库追踪使用场景可调整提示匹配不同知识库,让LLM扮演不同角色上传公司财务报告、充当财务分析师上传客服聊天记录、充当智能客服上传经典案例、充当法律助理上传医院百科全书、充当在线咨询医生等。

。 。

为了实战,我们选择langchain-ChatGLM项目示例。其他LLM模型连接知识库也是如此。

准备学习 PAI 平台,使用 A10 显卡。项目部署环境准备好后,就可以开始准备部署了。

下载源代码语言:javascript copy git clone langchain-ChatGLMpip install -rrequirements.txt 下载模型代码语言:javascript copy # 安装 git lfsgit lfs install # 下载 LLM 模型 git clone /your_path/chatglm-6b # 下载 Embedding 模型 git clone / your_path/text2vec# 当模型需要更新时,可以打开模型所在文件夹,拉取最新的模型文件/代码 git pull 参数调整。模型下载后,请修改configs/model_config.py文件中的embedding_model_dict和llm_model_dict参数。

代码语言:javascript copy embedding_model_dict = { "ernie-tiny": "nghuyong/ernie-3.0-nano-zh", "ernie-base": "nghuyong/ernie-3.0-base-zh", "text2vec": "/ your_path/text2vec"}llm_model_dict = { "chatyuan": "ClueAI/ChatYuan-large-v2", "chatglm-6b-int4-qe": "THUDM/chatglm-6b-int4-qe", "chatglm-6b-int4 ": "THUDM/chatglm-6b-int4", "chatglm-6b-int8": "THUDM/chatglm-6b-int8", "chatglm-6b": "/your_path/chatglm-6b",} 项目启动 Web 模式启动代码语言:javascript copy pip install grariopython webui.py 模型配置上传知识库 知识库问答 API模式启动代码语言:javascript copy python api.py 命令行模式启动代码语言:javascript copy python cli_demo.py 改进Gradio页面太多简单,可以作为后台管理员操作页面。如果要向用户开放的话就不适合了。

舒先生在Chatgpt-Next-Web项目的基础上进行了适配修改,为用户创建了本地知识库前端。 。

授权码控件选择知识库,并根据知识库问答显示答案来源 PS:本知识库是我上传的原始知识库,所以源数据的显示效果不好。更好的做法是在上传之前先进行数据管理。

基于ChatGLM-6B构建个人知识库

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 重播 -数字化转型共创价值——2022香港上市公司发展高峰论坛暨第十届港股百强颁奖盛典

    重播 -数字化转型共创价值——2022香港上市公司发展高峰论坛暨第十届港股百强颁奖盛典

    2020年2月24日,由香港股市研究中心主办,彩华学会承办,富途安逸、东石科技协办的“数字化转型,共同创造价值”——香港上市公司发展高峰论坛暨第十届香港联交所颁奖典礼在香港港岛香格里拉大酒店隆重举行。 来自政府、高校、金融机构、上市公司的嘉宾出席本次活动,围绕数

    06-18

  • 不存在的潘博文真的存在吗?都是因为精神疾病

    不存在的潘博文真的存在吗?都是因为精神疾病

    进教室看到小温,他说我和L不出来了,就拿着我的球拍回了教室。 我问他潘博文的球拍在哪里,他一脸疑惑地说潘博文。 那是谁?我说他是10班和我们一起玩的。 过了一会儿,他坚称他不认识潘博文,而且拍摄也不是我做的。 从此,只有小衡和L先生记得潘博文的存在。 其他人都说没

    06-21

  • 元芯惠宝完成5000万元A轮融资,红杉、启明追加

    元芯惠宝完成5000万元A轮融资,红杉、启明追加

    7月8日,投资界消息,据动脉网报道,北京元芯惠宝科技有限公司(以下简称“元芯惠宝”)元芯科技旗下成员公司惠宝”(简称“惠宝”)近日宣布完成1万元A轮融资。 本轮融资由红杉资本中国基金领投,启明创投跟投。 元心惠宝是一家健康险科技公司。 提供重大疾病、慢性病等健康

    06-18

  • 李彦宏:人工智能领域八项关键技术将深刻改变社会

    李彦宏:人工智能领域八项关键技术将深刻改变社会

    创造头条7月29日,在智能经济高峰论坛上,百度创始人李彦宏指出,当前,世界正在迎来新一轮创新红利,以人工智能为核心驱动力的智慧经济,正在成为经济发展的新引擎。 李彦宏表示,未来十年,人工智能领域的八项关键技术将实现“从量变到质变”,从而深刻改变我们的社会。 它

    06-18

  • 特变电工为LP,子公司拟出资7.7亿元参与设立双碳绿色能源基金

    特变电工为LP,子公司拟出资7.7亿元参与设立双碳绿色能源基金

    据投资界2月21日消息,特变电工(89)(89.SH)公告称,公司全资子公司科技投资公司与南方电网建信基金管理有限公司(简称南网建信基金)设立格网双碳绿色能源(广州)私募股权投资基金合伙企业(广州)管理公司)和南方电网资本控股有限公司(简称南方电网资本)。 有限合伙

    06-18

  • J&T极图快递在阿联酋和沙特阿拉伯正式运营快递网络

    J&T极图快递在阿联酋和沙特阿拉伯正式运营快递网络

    2020年1月7日,迪拜——国际快递物流公司J&T极图快递(J&T Express,简称“极图快递”)今天正式宣布推出在阿拉伯联合酋长国和沙特阿拉伯(“沙特阿拉伯”)运营的快递网络。 阿联酋和沙特阿拉伯是极兔快递在中东地区首批覆盖的国家。 截至目前,极兔快递的全球快递服务网络已

    06-17

  • 工业互联网服务商“雪浪云”完成超亿元A轮融资

    工业互联网服务商“雪浪云”完成超亿元A轮融资

    投资圈(微信ID:pedaily)据8月25日消息,工业互联网服务商雪浪云近期完成超百笔A轮融资万元。 本轮由经纬中国领投,老股东晨兴资本、国投创投跟投。 本轮融资后,雪浪云将用于加速技术研发和市场拓展。 技术方面,我们会积累机制和组件能力,优化底层计算引擎能力,突破新的

    06-18

  • 台积电或代工特斯拉HW4.0芯片

    台积电或代工特斯拉HW4.0芯片

    “台积电已生产超过10亿颗7nm芯片,搭载多款产品。 据了解,台积电首款7nm芯片已于今年4月开始大规模量产”今年7月生产了第10亿颗7nm芯片,在这27个月里,台积电每月生产超过10000颗7nm芯片,7nm技术不仅适用于PC、平板电脑和智能手机,还适用于数据中心、汽车、汽车等领域。

    06-06

  • 五部门:推行新学徒制,每人每年最低补贴5000元

    五部门:推行新学徒制,每人每年最低补贴5000元

    6月23日,人力资源社会保障部、财政部等五部门近日联合发文《关于全面推行中国特色企业新型学徒制 加强技能人才培养的指导意见》 。 《意见》要求,每位学徒每年补贴标准原则上应在1元以上,并可根据经济发展、培训费用、物价指数等情况定期调整。 以下为意见全文:关于在中

    06-18

  • 华业合伙人-博瀚智智能完成数千万元战略融资

    华业合伙人-博瀚智智能完成数千万元战略融资

    华业天成Pre-A轮投资项目——中国最大的以数据为中心的AI赋能平台及解决方案服务商“博瀚智智能”宣布完成千万级融资战略融资,公司研发团队由全球领先的人工智能科学家领衔,汇聚了微软、腾讯等国际知名企业的骨干力量。 公司连续三年实现超%增长,产品得到国内外超级计算中

    06-18

  • 【全球财经24小时】2023年12月4日

    【全球财经24小时】2023年12月4日

    2023年12月4日投融资事件汇总及详情,欢迎订阅《全球财经24小时》系列文章,动动小手指为我们助力更好更快地获取信息 带给您~ 点击此处输入表格摘要。 今日全球市场共发生18起投资披露事件,其中境内12起,境外6起。 其中,国内先进制造业5例、汽车交通行业1例、企业服务业3例

    06-17

  • 力同拟现金收购纳斯达克上市公司太平洋互联

    力同拟现金收购纳斯达克上市公司太平洋互联

    5月12日,IP语音(VoIP)电话服务提供商力同网络软件股份有限公司(MediaRing Ltd.)宣布在纳斯达克A股上市以现金要约收购 Pacific Internet Limited 发行的所有股份。 该要约的投标有效期截止于2020年6月12日纽约时间午夜12:00。 截止日期可能会因力通网络或其代表随时宣布的

    06-18