2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家
检索增强生成(RAG)已成为构建人工智能驱动的文档智能系统的默认架构。大多数实现都遵循相同的模式:
- 将文档分割成片段
- 将片段转换为嵌入向量
- 将它们存储在向量数据库中
- 检索最相似的片段
- 将这些片段发送给大语言模型(LLM)以生成答案
这一流程在处理简单文本时效果尚可。然而,当应用于临床记录等结构化文档时,分段操作可能引发严重问题。
医疗健康文档富含上下文信息和层级结构。将其任意切分为片段常常导致上下文丢失、检索错误以及推理碎片化。
在本文中,你将通过一个真实的临床文档示例,理解为何分段方法会失效,并了解如何通过结构感知的索引与摘要技术获得更优的结果。
注意:本文以医疗健康领域为重点,以患者临床文档为例进行说明。
临床文档示例
请考虑以下临床摘要样本:
患者姓名:乔丹·M。
出生日期:1990年6月21日
摘要日期:2025年8月1日
诊断:F33.1 复发性中度重度抑郁障碍
症状:持续情绪低落、睡眠紊乱、注意力不集中
治疗摘要:
- 12次认知行为疗法(CBT)疗程,每周一次
- 聚焦核心信念与行为激活
- PHQ-9评分从17分改善至6分
用药情况:每日服用舍曲林50毫克,未报告副作用
随访计划:
- 转诊至精神科医生以继续药物治疗
- 建议持续进行每两周一次的心理治疗
乍看之下,这份文档篇幅很小,但实际系统中的临床记录往往跨越数百页,涵盖多次就诊内容。
即使在这个简单示例中,文档也包含清晰的语义章节:
患者信息
诊断
症状
治疗摘要
用药情况
随访计划
这些章节为正确解读文档提供了必要的结构。
对该文档进行分段后会发生什么
传统的RAG系统可能会将文本分割成如下片段:
片段A
患者姓名:乔丹·M。
出生日期:1990年6月21日
诊断:重度抑郁障碍
症状:持续情绪低落
片段B
治疗摘要:
12次认知行为疗法(CBT)疗程
PHQ-9评分从17分改善至6分
片段C
用药情况:每日服用舍曲林50毫克
随访计划:转诊至精神科医生
1. 跨章节推理类问题
这类问题需要来自多个片段的信息,而基于片段的检索通常无法有效整合这些信息。
示例问题
• 哪种治疗改善了患者的PHQ-9评分?
• 正在使用哪种药物治疗患者的抑郁症?
• 除了药物治疗外,还采用了何种治疗方式?
• 哪些干预措施帮助降低了患者的抑郁评分?
为何分段方法会失效
系统可能仅检索到:
片段B
PHQ-9评分从17分改善至6分
但它并未包含……
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。