[发明专利]一种实体链接方法及装置有效
申请号: | 202010099197.4 | 申请日: | 2020-02-18 |
公开(公告)号: | CN111415748B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 史亚飞 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F16/28;G06F16/242 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 链接 方法 装置 | ||
本发明公开了一种实体链接方法及装置,包括:获取当前医疗文本,从当前医疗文本中确定待链接的医疗术语;基于待链接的医疗术语获得当前词向量;比较当前词向量和预设词向量的相似度,输出对比相似度;根据对比相似度确定待链接的医疗术语的当前医疗实体;将待链接的医疗术语和当前医疗实体链接。词向量相比于现有技术的语义成分而言更加多样化,使得解析的结果不局限于一种,在多种结果里筛选最合适的一种结果来作为当前医疗文本,相比于现有技术,避免了由于CRF识别待链接实体的语义成分过于单一导致解析的准确率太低进而无法有效的得到理疗实体或者得到错误的医疗实体的情况,提高了准确率。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种实体链接方法及装置。
背景技术
在临床病历大数据的处理中,由于地域、医院、医生、标准等差异,同一实体往往有大量不同的表达方式,只有精确地识别出同一种实体,针对有限的实体空间,才能有效的对数据进行统计和计算。因此,医学术语实体链接是数据处理过程中一个必不可少的部分。
目前,现有的实体链接方法一般是通过N-gram算法获得候选数量,CRF识别候选数量的待链接实体的语义成分和候选标准词条的语义成分进行匹配,借助知识图谱的语义成分的同义关系,最后获得相似度最高的标准词语。但是这种方法存在以下缺点:CRF识别待链接实体的语义成分过于单一导致解析的准确率太低进而无法有效的得到理疗实体或者得到错误的医疗实体。
发明内容
针对上述所显示出来的问题,本方法基于获取当前医疗文本,确定待链接的医疗术语并获得待链接的医疗术语的当前词向量来和预设词向量作比较进而确定待链接的医疗术语中当前医疗实体并与待链接的医疗术语链接。
一种实体链接方法,包括以下步骤:
获取当前医疗文本,从所述当前医疗文本中确定待链接的医疗术语;
基于所述待链接的医疗术语获得当前词向量;
比较所述当前词向量和预设词向量的相似度,输出对比相似度;
根据所述对比相似度确定所述待链接的医疗术语的当前医疗实体;
将所述待链接的医疗术语和所述当前医疗实体链接。
优选的,所述获取当前医疗文本,从所述当前医疗文本中确定待链接的医疗术语,包括:
从所述当前医疗文本中抽取所有的第一医疗术语;
将所述第一医疗术语输入到预设知识图谱中进行检索;
通过检索确定所述待链接的医疗术语。
优选的,所述基于所述待链接的医疗术语获得当前词向量,包括:
对所述待链接的医疗术语进行预处理,将所述待链接的医疗术语中的英文成分转化成对应的中文;
利用下列公式计算所述待链接的医疗术语中每一个中文的标签分数:
其中,所述X=(x1,x2,......xn),表示所述待链接的医疗术语中每一个字的输入序列,所述y=(y1,y2,...),表示所述待链接的医疗术语中每一个字的输出序列,所述表示输入为xi输出为标签yi的概率,所述表示从所述标签yi转化到标签yi+1的概率;
选择得分最高的输出序列作为所述待链接的医疗术语的当前标签;
抽取所述当前标签的n个第一语义成分;
利用预设模型训练出所述n个第一语义成分中每个第一语义成分的词向量;
将所述每一个语义成分的词向量确定为所述当前词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010099197.4/2.html,转载请声明来源钻瓜专利网。