需围绕输入适配、提示词设计、输出后处理三环节展开:一、清洗病历并补全字段;二、嵌入医学约束的JSON提示模板;三、分阶段调用+规则校验;四、正则修复+标准术语映射。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您希望利用 DeepSeek 模型对非结构化的医疗病历文本进行信息提取与格式化整理,则需围绕模型输入适配、提示词设计及输出后处理三个核心环节展开。以下是实现该目标的具体操作路径:
一、准备标准化的病历文本输入
DeepSeek 作为大语言模型,其输出质量高度依赖输入文本的清晰度与完整性。原始病历常含手写识别错误、缩写不统一、时间表述模糊等问题,需预先清洗并补全关键字段。未经规范的输入易导致摘要遗漏诊断依据或混淆用药时序。
1、提取病历中明确标识的结构化段落,包括主诉、现病史、既往史、体格检查、辅助检查、初步诊断、治疗计划等模块。
2、将非标准缩写替换为全称,例如将“HTN”替换为高血压,“DM”替换为糖尿病,“LVEF”替换为左心室射血分数。
3、统一时间格式,将“3天前”“昨日”“入院第2天”等相对时间转换为绝对日期(如“2024-05-12”),并在括号内保留原始表述以供核验。
二、构建面向医疗任务的提示词模板
通用提示词无法稳定触发 DeepSeek 对临床逻辑的准确建模。必须嵌入医学知识约束与格式指令,强制模型按预设字段生成摘要,避免自由发挥导致的关键信息偏移或虚构内容。
1、在系统提示中声明角色:“你是一名三级甲等医院住院医师,正在为出院病历归档生成结构化摘要,请严格依据下方提供的病历原文作答,不得添加原文未提及的信息。”
2、在用户提示中定义输出格式:“请按以下JSON Schema输出:{‘患者基本信息’:{‘姓名’:,‘性别’:,‘年龄’:,‘住院号’:},‘核心临床事件’:[{‘时间节点’:,‘事件类型’:,‘具体内容’:}],‘诊断结论’:[],‘用药记录’:[{‘药品名称’:,‘剂量’:,‘频次’:,‘起止日期’:}],‘随访建议’:}”
3、在提示末尾添加校验指令:“若原文未提供某字段信息,请填入null,禁止推测;所有数值单位须与原文一致,如‘mmHg’‘mg/dL’不可省略。”
三、执行多轮推理与字段级验证
单次调用 DeepSeek 可能因上下文长度限制或注意力漂移导致部分字段缺失或错位。应采用分阶段调用策略,每次聚焦一个语义模块,并通过规则引擎交叉比对结果一致性。
1、首轮调用仅提交“现病史+辅助检查”部分,要求模型提取全部异常检验值及其临床意义标注,例如将“肌酐 142 μmol/L”转为“肌酐升高(正常值59–104 μmol/L),提示肾功能不全”。
2、第二轮调用单独提交“医嘱单+护理记录”,要求识别药物给药路径(如静脉滴注/口服)、实际执行时间戳、以及与诊断的映射关系,例如标记“呋塞米 20 mg iv bid”对应“急性左心衰竭”。
3、第三轮整合前两轮输出,由本地规则脚本校验时间逻辑:检查“用药起始日”是否早于或等于“症状缓解日”,若出现逆序则触发人工复核标记。
四、部署轻量级后处理管道
DeepSeek 输出的 JSON 可能存在语法错误、字段嵌套错位或中文标点混用问题,直接入库将引发解析失败。需引入确定性后处理器,在不依赖额外模型的前提下完成格式修复与术语对齐。
1、使用正则表达式捕获常见JSON错误模式,如末尾多余逗号、单引号替代双引号、中文冒号“:”替代英文冒号“:”,并执行无损替换。
2、加载国家卫健委《疾病分类与代码》标准库,将模型输出的诊断名称(如“心衰”)映射至标准编码(如“I50.900x001”),未匹配项保留原文并标记为待编码。
3、对“用药记录”数组执行去重合并:若同一药品在不同医嘱单中出现,合并其频次描述(如“qd”与“每日一次”视为等效),并取最早起始日与最晚终止日作为最终区间。











