为什么分块是RAG系统中最大的错误

发布日期:2026-04-11 10:01:21   浏览量 :12
发布日期:2026-04-11 10:01:21  
12

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

检索增强生成(RAG)已成为构建人工智能驱动的文档智能系统的默认架构。大多数实现都遵循相同的模式:

  1. 将文档分割成片段
  2. 将片段转换为嵌入向量
  3. 将它们存储在向量数据库中
  4. 检索最相似的片段
  5. 将这些片段发送给大语言模型(LLM)以生成答案

这一流程在处理简单文本时效果尚可。然而,当应用于临床记录等结构化文档时,分段操作可能引发严重问题。

医疗健康文档富含上下文信息和层级结构。将其任意切分为片段常常导致上下文丢失、检索错误以及推理碎片化。

在本文中,你将通过一个真实的临床文档示例,理解为何分段方法会失效,并了解如何通过结构感知的索引与摘要技术获得更优的结果。

注意:本文以医疗健康领域为重点,以患者临床文档为例进行说明。

临床文档示例

请考虑以下临床摘要样本:

患者姓名:乔丹·M。
出生日期:1990年6月21日
摘要日期:2025年8月1日

诊断:F33.1 复发性中度重度抑郁障碍
症状:持续情绪低落、睡眠紊乱、注意力不集中

治疗摘要:
- 12次认知行为疗法(CBT)疗程,每周一次
- 聚焦核心信念与行为激活
- PHQ-9评分从17分改善至6分

用药情况:每日服用舍曲林50毫克,未报告副作用

随访计划:
- 转诊至精神科医生以继续药物治疗
- 建议持续进行每两周一次的心理治疗

乍看之下,这份文档篇幅很小,但实际系统中的临床记录往往跨越数百页,涵盖多次就诊内容。

即使在这个简单示例中,文档也包含清晰的语义章节:

患者信息
诊断
症状
治疗摘要
用药情况
随访计划

这些章节为正确解读文档提供了必要的结构。

对该文档进行分段后会发生什么

传统的RAG系统可能会将文本分割成如下片段:

片段A
患者姓名:乔丹·M。
出生日期:1990年6月21日
诊断:重度抑郁障碍
症状:持续情绪低落
片段B
治疗摘要:
12次认知行为疗法(CBT)疗程
PHQ-9评分从17分改善至6分
片段C
用药情况:每日服用舍曲林50毫克
随访计划:转诊至精神科医生

1. 跨章节推理类问题

这类问题需要来自多个片段的信息,而基于片段的检索通常无法有效整合这些信息。

示例问题

• 哪种治疗改善了患者的PHQ-9评分?
• 正在使用哪种药物治疗患者的抑郁症?
• 除了药物治疗外,还采用了何种治疗方式?
• 哪些干预措施帮助降低了患者的抑郁评分?

为何分段方法会失效

系统可能仅检索到:

片段B
PHQ-9评分从17分改善至6分

但它并未包含……

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部