[发明专利]实体词识别方法和装置有效
申请号: | 202010103350.6 | 申请日: | 2020-02-19 |
公开(公告)号: | CN111339268B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 史亚冰;李双婕;蒋烨;张扬;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王艳斌 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体词 识别 方法 装置 | ||
本申请公开了一种实体词识别方法和装置,涉及人工智能中的信息处理技术领域,其中,方法,包括:获取实体词类别和待识别文档;根据实体词类别生成实体词问题;对待识别文档拆分,生成多个候选语句;将实体词问题和多个候选语句输入预先训练的问答模型,获取实体词识别结果;根据实体词识别结果获取与实体词问题对应的实体词集合。由此,实现了一种适用范围比较广的实体词识别方法,提高了实体词的召回率和实体词识别的智能化。
技术领域
本申请涉及人工智能技术中的信息处理技术领域,尤其涉及一种实体词识别方法和装置。
背景技术
目前,知识图谱的构建在各行各业越来越被重视,比如,可以给予法律体系的知识图谱提供法律行业的法律推理等,其中,知识图谱的构建依赖于实体词的挖掘。
相关技术中,根据行业内积累的专业文档来挖掘出实体词,获取行业内的专业术语表,根据关键词匹配的技术来在专业文档中挖掘出对应的实体词。
然而,这种实体词获取方式,依赖于术语词表的覆盖全面程度。大多数情况下,行业内累计的术语词表非常局限,导致实体词的召回率较低。
发明内容
本申请的第一个目的在于提出一种实体词识别方法。
本申请的第二个目的在于提出一种实体词识别装置。
本申请的第三个目的在于提出一种电子设备。
本申请的第四个目的在于提出一种存储有计算机指令的非瞬时计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种实体词识别,包括:获取实体词类别和待识别文档;根据所述实体词类别生成实体词问题;对所述待识别文档拆分,生成多个候选语句;将所述实体词问题和所述多个候选语句输入预先训练的问答模型,获取实体词识别结果;根据所述实体词识别结果获取与所述实体词问题对应的实体词集合。
为达上述目的,本申请第二方面实施例提出了一种实体词识别装置,包括:第一获取模块,用于获取实体词类别和待识别文档;第一生成模块,用于获取实体词类别和待识别文档;第二生成模块,用于对所述待识别文档拆分,生成多个候选语句;第二获取模块,用于将所述实体词问题和所述多个候选语句输入预先训练的问答模型,获取实体词识别结果;第三获取模块,用于根据所述实体词识别结果获取与所述实体词问题对应的实体词集合。
为达上述目的,本申请第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例描述的实体词识别方法。
为达上述目的,本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述实施例描述的实体词识别方法。
上述申请中的一个实施例具有如下优点或有益效果:
获取实体词类别和待识别文档,根据实体词类别生成实体词问题,进而,对待识别文档拆分,生成多个候选语句,将实体词问题和多个候选语句输入预先训练的问答模型,获取实体词识别结果,最后,根据实体词识别结果获取与实体词问题对应的实体词集合。由此,实现了一种适用范围比较广的实体词识别方法,提高了实体词的召回率和实体词识别的智能化。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的实体词识别场景示意图;
图2是根据本申请第二实施例的实体词识别方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010103350.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于相似性损失的行为识别方法
- 下一篇:地图展示方法与系统