沃卡惠移动端logo

沃卡惠  行业资讯

资讯详情

向量嵌入与知识图谱:解锁大型语言模型的新维度

2024-03-04 09:19:594636

大型语言模型(LLM)在对话、创造性写作和其他应用中展现出巨大潜力,但其知识仅限于训练数据,缺乏对世界的真正理解。为了弥补这一缺陷,检索增强生成(RAG)系统应运而生,通过从外部源检索知识来提供更明智的响应。然而,现有的RAG系统大多使用向量嵌入进行语义相似度检索,存在缺乏真正相关性、无法聚合事实和推理链等局限性。

向量嵌入与知识图谱:解锁大型语言模型的新维度

知识图谱作为现实世界实体和关系的结构化表达,通过编码上下文事实之间的相互联系,克服了纯向量搜索的缺陷。通过图搜索,可以实现复杂的多级推理。将向量嵌入与知识图谱相结合,可以开启更高水平的推理能力,提升LLM的准确性和可解释性。这种伙伴关系提供了表层语义以及结构化知识和逻辑的完美融合,LLM既需要统计学习也需要符号表示。

尽管向量嵌入在检索相关上下文方面有其优点,如快速搜索和相似度度量,但其对复杂查询的处理能力有限。由于无法完全捕获查询的语义意图、丢失关键细节、缺乏跨段落的联合分析以及匹配过程的不透明性,检索结果往往缺乏真正的理解。

知识图谱的整合为增强检索能力提供了新的途径。与压缩成向量的文本相比,知识图谱中的显式事实保留了关键细节,提供了丰富的上下文描述、别名和元数据。网络结构表达了实体之间的真实连接、关系建模、层次结构和时间线等。多级推理基于关系遍历和连接来自不同来源的事实,推导出需要跨多个步骤进行推理的答案。此外,联合推理通过实体解析链接到同一个现实世界的对象,允许进行集体分析。图形拓扑为结果提供了透明度,解释了为什么某些基于连接的事实是相关的。个性化特性还允许根据用户属性和上下文定制结果。

知识图谱不是孤立的匹配过程,而是通过图遍历收集与查询相关的相互关联的上下文事实。基于图的拓扑结构进行可解释的排名,通过编码结构化事实、关系和上下文来增强检索能力,从而实现精确的多步推理。与纯向量搜索相比,这提供了更大的相关性和解释能力。

此外,利用简单约束改进知识图谱嵌入也是当前的研究热点。例如,非负性约束将实体嵌入限制为正值以提高可解释性;蕴涵约束将逻辑规则直接编码为关系嵌入的约束;置信度建模根据证据对逻辑规则的置信度进行编码;正则化施加有用的归纳偏差;结构化约束为模型所学习的模式提供透明度;精确性约束通过减少假设空间来提高泛化能力。

总的来说,将向量嵌入与知识图谱相结合开启了LLM的新维度,克服了其局限性并提高了准确性和可解释性。这种伙伴关系为LLM提供了表层语义以及结构化知识和逻辑的完美融合,从而在复杂查询和多级推理中表现出色。随着技术的不断进步和研究的深入,我们有望见证LLM在更多领域中的广泛应用和巨大潜力。