[发明专利]一种病症实体的抽取方法及装置在审
申请号: | 202010260839.4 | 申请日: | 2020-04-03 |
公开(公告)号: | CN113496121A | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 李长亮;王献 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;北京金山软件有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G16H10/60 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 王治东 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 病症 实体 抽取 方法 装置 | ||
本申请提供一种病症实体的抽取方法及装置,所述病症实体的抽取方法包括:接收输入的描述语句,其中描述语句包括至少一个分句;将每个所述分句进行处理,得到与该分句对应的病症实体向量;在医学词典中进行查找并确定与所述分句对应的病症实体向量对应的标准病症实体,其中,所述医学词典包括多个所述标准病症实体以及每个所述标准病症实体对应的病症实体向量。本方法通过每个分句对应的病症实体向量在医学词典中查找对应的标准病症实体,而并非根据分句中的关键词查找对应的病症实体,从而可以更准确地识别患者输入的描述语句的语义信息,提高病症实体提取的准确性。
技术领域
本申请涉及语言处理技术领域,特别涉及一种病症实体的抽取方法及装置、计算设备和计算机可读存储介质。
背景技术
病症实体,指的是在医疗文本语句中抽取出来的病症实体指称,例如包括病症、症状、食物、药剂等等。
现有技术中,普遍使用将患者的输入语句直接匹配已有医疗字典的方式,即提取患者输入语句中的关键词,然后将关键词与医疗字典中的病症实体进行匹配,然后确定与患者输入语句对应的病症实体。此种方式下,有以下缺陷:
1)匹配结果完全依赖分词的好坏。在分词过程中,有的名词会被拆分开,导致在匹配的过程中不能查到相关的病症实体。
2)此种方式对于近义词、模糊描述等情况的识别能力有限。由于医疗领域内专有名词较多,普通患者难以准确描述病症,导致最终对病症提取的效果影响较大。
发明内容
有鉴于此,本申请实施例提供了一种病症实体的抽取方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例提供了一种病症实体的抽取方法,包括:
接收输入的描述语句,其中,所述描述语句包括至少一个分句;
将每个所述分句进行处理,得到与该分句对应的病症实体向量;
在医学词典中进行查找并确定与所述分句对应的病症实体向量对应的标准病症实体,其中,所述医学词典包括多个所述标准病症实体以及与每个所述标准病症实体对应的病症实体向量。
可选地,将每个所述分句进行处理,得到与该分句对应的病症实体向量,包括:
将所述分句进行切分,得到至少一个词单元;
对至少一个词单元进行选取得到目标词单元,并生成所述目标词单元对应的词向量;
将所述目标词单元对应的词向量进行处理,得到与该分句对应的病症实体向量。
可选地,对至少一个词单元进行选取得到目标词单元,包括:
将每个所述分句的全部词单元作为该分句的目标词单元。
可选地,对至少一个词单元进行选取得到目标词单元,包括:
根据所述分句的词单元的长度,将长度大于阈值的词单元作为该分句的目标词单元。
可选地,对至少一个词单元进行选取得到目标词单元,包括:
将至少一个词单元与停用词典中的停用词单元进行比较,确定待删减的词单元,其中,所述停用词典包括至少一个停用词单元;
基于所述待删减的词单元对所述至少一个词单元进行删减,得到所述目标词单元。
可选地,生成所述目标词单元对应的词向量,包括:
S02、将所述目标词单元输入至语言处理模型的嵌入层进行处理,得到每个目标词单元的嵌入向量,其中,所述语言处理模型包括依次连接的嵌入层以及n个编码层,n为正整数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;北京金山软件有限公司,未经北京金山数字娱乐科技有限公司;北京金山软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010260839.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多层热压机移动自动卸板机
- 下一篇:POCT血细胞分析仪及试剂盒