LangChain介绍
LangChain是一个用于开发基于语言模型的应用程序开发框架。总的来说,LangChain是一个链接面向用户程序和LLM之间的一个中间层。
(资料图)
它在 2023 年 3 月获得了 Benchmark Capital 的 1000 万美元种子轮融资,在近期又拿到了红杉2000-2500万美金的融资,估值已经提升到了2亿美金左右。
LangChain 可以轻松管理与语言模型的交互,将多个组件链接在一起,并集成额外的资源,例如 API 和数据库。其组件包括了模型(各类LLM),提示模板(Prompts),索引,代理(Agent),记忆等等。当前GitHub上的热门项目Auto-GPT和Babyagi所使用的链式思考能力都是由LangChain启发而来。LangChain项目主页图LangChain工作流程
本次重点介绍LangChain搭配自有的知识库让LLM发挥更大功能的流程。
在缺少了上下文的情况下,即使是目前公认最顶级的LLM GPT-4也无法回答部分需要特定领域的知识。
而要是想仅用自有知识库来训练出LLMs又是不可能的,这个时候最好的方法就是利用LangChain的模块来改善LLM的使用,通过输入自己的知识库来“定制化”自己的LLM。
Question Answering over specific documents是一个写在LangChain主页的主推功能。翻译过来就是 基于特定文档的问答 。
准备自定义数据
准备好需要LLM学习的内容,它可以是一个纯文本文件或者其他类型的文本(不同类型的文本需要不同的文档加载器)。拆分文档
一般来讲,每个文档都是由复杂长短句、多种语法结合写作而成的。在进行输入之前,就必须对这些文字进行解构处理。对于英文LangChain一般会使用RecursiveCharacterTextSplitter处理。由于中文的复杂性,会使用到jieba等处理工具预处理中文语句。文本嵌入(Embeddings)处理完文本之后,就可以对文本进行嵌入(Embeddings)了。通过调用OpenAI的Embeddings API将文本向量化。在这步处理之后,文本就已经不再是文字,而是以向量化存储的信息。再使用一个开源的Embeddings数据库ChromaDB保存Embeddings数据,就可以达到使用数据长期存储和快速调用。图:将原文本嵌入
使用链(Chain)对矢量数据库进行问答
在拥有了嵌入数据之后,我们就可以利用LangChain的强大链功能来执行我们的问答。这时就可以通过自然语言对于文档内容进行提问了。通过LangChain回答问题/完成任务LangChain可能的应用场景
当前的AI热潮吸引了很多人,而除了ChatGPT这类问答还有New Bing这种搜索服务外,并没有什么可以将LLM商业化的案例。甚至可以说只有New Bing才是目前唯一一个成功的商业化案例。
LangChain为所有人提供了一个新的商业化方案。此前有将LLM导入客服软件中应用的方案,但是由于LLM容易出现事实幻觉而无法实施。同时,将所需内容通过Prompt导入LLM的想法也由于LLM的对话(Context)输入限制而不可能实施。LangChain则通过将数据向量化避免了使用输入限制,从而将所需内容导入LLM进行问答。当下的人工成本逐渐提升,例如淘宝客服等人工密集型产业的成本逐步提升。当前的智能问答距离可用仍有较远的距离。通过已经预训练好的LLM是一个快速降本增效的方案。基于每个产品的数据,可以将数据引入LLM中,让LLM接替客服工作,准确、快速的回答客户的定制化问题,同时语气贴合自然口吻,避免了情绪化工作。基于文档的工作还可以在各类公司培训和智能化文档方面提供作用。很多产品文档随着时间的积累变得越来越复杂,多层跳转也会让人学习起来效率低下且不适。此时基于LangChain就可以将文档重新梳理,输出为大纲类,在使用的时候可以随时通过问答的形式将内容输出。类似于新员工培训和产品说明书等等场景都可以有所应用。这就极大的拓宽了文字类LLM的使用场景。基于LangChain的问答除了直接与人交互的方面外,还可以导入特定领域的知识库,实时更新LLM的内容,让LLM的知识时刻处于最新的状态。依赖于此,LangChain除了可以完成自然语言文档搜索外,还可以基于及时的资源进行快速开发。导入资源后LangChain开发出的网页当前LangChain的局限性
目前,由于整个AI生态还处于一种快速发展期,各类工具和平台还没有完全成熟,因此LangChain的各类链和模块的定制性和功能都还不够强大。对于有高性能场景需求和定制化任务的可能需要自己重新修改。
事实合法性也是未来需要解决的一个痛点。LLM的各类越狱层出不穷。虽然在引入了嵌入之后LLM只会对文档内容进行问答,但是仍然需要有一套额外的监督系统防止出现任何非法的回答。同时当前LangChain还有使用难度较高等问题。目前的各类AI工具都面临着普通用户无法轻松驾驭等等的问题,而LangChain的问题更盛。普通产品或者开发者的上手学习成本较高,使用起来难度很大。这一切都需要社区和商业资本的共同投入才有可能解决。结语
LangChain是当前众多的AGI实验性工具的基石项目。基于链(Chain)的LLM调用思维势必会贯穿未来LLM的发展生态。提前关注AI发展动向,关注LangChain的开发进度,会对未来的AI应用落地有极大的帮助。关键词:
LangChain:为你定制一个专属的GPT
天宜上佳(688033.SH):约1.1144亿股限售股将于4月26日解禁
中国建筑兴业首季度营收17.25亿港元 经营溢利同比增长35%
网商贷协商延期还款后会不会影响信用?网商贷逾期被起诉会有什么后果?
书香润心灵 阅读伴成长
4月20日MLOps概念板块涨幅达4% 每日热闻
全球观点:全市电网建设工作推进会召开 全力开创电力高质量发展新局面
铁枝图片 铁枝|当前快看
人间好时节丨字生谷雨时 牡丹正芳菲
环球微资讯!武汉知识产权质押融资入园惠企宣传周启动
环球微资讯!大唐发电(00991)已于4月18日完成发行2023年度第一期超短期融资券
什么是超细纤维材质_什么是超细纤维 全球快播
12寸和a4一样大吗(12开和4开哪个大)
【天天速看料】明矾净水化学方程式和离子方程式_明矾净水化学方程式
国家知识产权局商标业务咸阳受理窗口正式启动 前沿资讯
NYFO青少年足球公开赛在长沙举行
热点评!燕云台
瑞士政府重申:为瑞银收购瑞信案提供的担保有约束力
肝肾同源的主要依据是什么_肝肾同源
今热点:上峰水泥:4月18日召开董事会会议
腾景科技(688195)龙虎榜数据(04-19) 天天滚动
ChatGPT如何倒逼人工智能产业?对就业影响几何?上海市科委解答 快播
全国服务型制造应用技术技能大赛:开发多个平台,将带动更多劳动者成才 环球新要闻
初级经济师《人力资源》每日一练(2023.04.19) 天天最新
韩国4月新增13例猴痘病例 疑似出现社区传播
全球观速讯丨“金蝉脱壳”?男子诈骗 90 万后假装轻生改名生活
医健IPO解码丨主攻自免和过敏药物,布局全面的荃信生物能否从千亿赛道崛起? 世界播资讯
天天时讯:股市三点钟|三大股指集体收跌 旅游酒店板块大涨
【东海期货4月19日产业链日报】贵金属篇:美联储官员发言鹰派,金银震荡_今热点
国网新疆阿克苏供电公司主动上门服务 确保蔬菜大棚基地电力足产业旺