[发明专利]一种基于语言模型的医案搜索方法有效

专利信息
申请号: 201610154543.8 申请日: 2016-03-17
公开(公告)号: CN105843868B 公开(公告)日: 2019-03-26
发明(设计)人: 张引;姜利成 申请(专利权)人: 浙江大学
主分类号: G06F16/33 分类号: G06F16/33;G06F17/27
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 张法高
地址: 310027 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于语言模型的医案搜索方法。步骤如下:1)通过OCR,文本结构化处理,从医案书籍中提取结构化单篇医案;2)使用中文分词工具,对所有医案进行包括分词和去停用词在内的预处理;3)用最大似然估计计算得到每篇医案的unigram语言模型;4)针对所有医案,统计各词频水平对应词语的个数,并使用统计到的数据拟合曲线;5)使用Good‑Turing估计方法来平滑每篇医案的unigram语言模型;6)以所有医案集作为整体建立一个所有医案集的语言模型,并用于修正单篇医案的unigram语言模型;7)使用修正后的语言模型实现医案搜索。本发明实现了基于语言模型的信息检索,使用N‑gram针对每篇医案建立各自的语言模型,使用语言模型生成文本的概率作为搜索结果排序依据。
搜索关键词: 一种 基于 语言 模型 医案 搜索 方法
【主权项】:
1.一种基于语言模型的医案搜索方法,其特征在于包括以下步骤:1)通过OCR,文本结构化处理,从医案书籍中提取结构化单篇医案;2)使用中文分词工具,对所有医案进行包括分词和去停用词在内的预处理,并建立词典;3)用最大似然估计计算得到每篇医案的unigram语言模型;4)针对所有医案,统计各词频水平对应词语的个数Ntf,其中下标tf代表词频水平,使用统计到的数据拟合曲线,拟合公式如下:得到曲线参数θ;5)根据步骤4)拟合的曲线计算再通过直接估计出比值;使用Good‑Turing估计方法来平滑每篇医案的unigram语言模型,公式如下:式中:tf*平滑后的词频水平,E()表示最大似然估计;6)将所有医案替代单篇医案作为训练文本,重复步骤2)到5),以所有医案集作为整体建立一个所有医案集的语言模型,使用该语言模型通过加权加和法修正单篇医案的unigram语言模型,修正公式如下:Psum(t|d)=ω×Pdocument(t|d)+(1‑ω)×Pcorpus(t)式中:Psum(t|d)为修正后的单篇医案的unigram语言模型;ω为权重;Pdocument(t|d)为平滑后的每篇医案的unigram语言模型;Pcorpus(t)为整个医案集的语言模型;7)使用修正后的语言模型实现医案搜索。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610154543.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code