[发明专利]一种基于语言模型的医案搜索方法有效
申请号: | 201610154543.8 | 申请日: | 2016-03-17 |
公开(公告)号: | CN105843868B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 张引;姜利成 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语言模型的医案搜索方法。步骤如下:1)通过OCR,文本结构化处理,从医案书籍中提取结构化单篇医案;2)使用中文分词工具,对所有医案进行包括分词和去停用词在内的预处理;3)用最大似然估计计算得到每篇医案的unigram语言模型;4)针对所有医案,统计各词频水平对应词语的个数,并使用统计到的数据拟合曲线;5)使用Good‑Turing估计方法来平滑每篇医案的unigram语言模型;6)以所有医案集作为整体建立一个所有医案集的语言模型,并用于修正单篇医案的unigram语言模型;7)使用修正后的语言模型实现医案搜索。本发明实现了基于语言模型的信息检索,使用N‑gram针对每篇医案建立各自的语言模型,使用语言模型生成文本的概率作为搜索结果排序依据。 | ||
搜索关键词: | 一种 基于 语言 模型 医案 搜索 方法 | ||
【主权项】:
1.一种基于语言模型的医案搜索方法,其特征在于包括以下步骤:1)通过OCR,文本结构化处理,从医案书籍中提取结构化单篇医案;2)使用中文分词工具,对所有医案进行包括分词和去停用词在内的预处理,并建立词典;3)用最大似然估计计算得到每篇医案的unigram语言模型;4)针对所有医案,统计各词频水平对应词语的个数Ntf,其中下标tf代表词频水平,使用统计到的数据拟合曲线,拟合公式如下:
得到曲线参数θ;5)根据步骤4)拟合的曲线计算
再通过
直接估计出
比值;使用Good‑Turing估计方法来平滑每篇医案的unigram语言模型,公式如下:
式中:tf*平滑后的词频水平,E()表示最大似然估计;6)将所有医案替代单篇医案作为训练文本,重复步骤2)到5),以所有医案集作为整体建立一个所有医案集的语言模型,使用该语言模型通过加权加和法修正单篇医案的unigram语言模型,修正公式如下:Psum(t|d)=ω×Pdocument(t|d)+(1‑ω)×Pcorpus(t)式中:Psum(t|d)为修正后的单篇医案的unigram语言模型;ω为权重;Pdocument(t|d)为平滑后的每篇医案的unigram语言模型;Pcorpus(t)为整个医案集的语言模型;7)使用修正后的语言模型实现医案搜索。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610154543.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种用于飞机实时空地数据的收发和处理的系统
- 下一篇:媒体文件播放方法及装置