[发明专利]一种实体词识别方法及装置在审
申请号: | 202110181496.7 | 申请日: | 2021-02-08 |
公开(公告)号: | CN112966511A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 陈开冉;黎展;张天翔 | 申请(专利权)人: | 广州探迹科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06F16/36 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 陈旭红;吕金金 |
地址: | 511400 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体词 识别 方法 装置 | ||
本发明公开了一种实体词识别方法及装置,本方法通过构建实体库(即知识图谱),该实体库中包含了专有的实体词,这些专有的实体词包括公司名称、项目产品以及其他的特殊场景等实体词,通过该实体库,在后续对文本中涉及的地名实体词进行分类时,可以明确该地名实体词的类别;从而能够准确识别出一个地名实体词是否包含于公司名称或者项目产品或者商场名称中(统称为实体场景),提高文本识别的准确率。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种实体词识别方法及装置。
背景技术
对于一段文本而言,为了完成某项任务,例如需要统计该文本内容中出现的地名实体词(例如省,市,区,县,镇等),一般可以采用文本匹配的方法来获取该段文本中出现的该类地名实体词(不妨称为第一类别)。
但是由于现有技术中的文本匹配方法一般采用通用字典进行分词,无法区分公司名称或者项目产品或者商场名称等专有的实体词,因此对于公司名称中出现地名实体词(不妨称为第二类别)的情况,也会错误的将该公司名称中出现的地名实体词进行统计。
例如,在一段新闻的文本中,其内容为“1月份,广州A公司在北京海淀区设立了北京分公司,这对于广州A公司而言是个值得纪念的日子”。在该新闻示例中,【广州】属于第二类别,【北京】属于第一类别;在实际任务中,我们实际上需要统计的是该新闻中出现了【北京】这一地名实体词,而【广州】这一地名实体词是干扰,应该排除。
因此,在文本识别中,如何准确识别出一个地名实体词是否包含于公司名称或者项目产品或者商场名称中(统称为实体场景),成为提高文本识别准确率的关键因素。
发明内容
本发明的目的在于至少解决现有技术中存在的技术问题之一,提供一种实体词识别方法及装置,能够准确识别出一个地名实体词是否包含于公司名称或者项目产品或者商场名称中(统称为实体场景),提高文本识别的准确率。
为了实现上述发明目的,本发明提供如下技术方案:
第一方面,本发明提供了一种实体词识别方法,所述方法包括:
利用预先构建好的知识图谱确定目标句子中各地名实体词之间的知识特征,并以所述知识特征作为对应目标句子的分类特征;其中,所述目标句子为待识别文档中至少包含两个地名实体词的句子;所述知识特征包括在知识图谱中预先设定的两个地名实体词之间的以下信息中的至少一个:包含关系、相邻关系、非相邻关系、距离、是否为别名;
根据目标句子及其对应的分类特征,利用预先训练好的分类模型确定所述目标句子中的各地名实体词的类别;其中,所述类别包括第一类别和第二类别,所述第一类别表示该地名实体词不包含于实体场景中,所述第二类别表示该地名实体词包含于实体场景中。
作为进一步改进,在利用预先构建好的知识图谱确定目标句子中各地名实体词之间的知识特征的步骤之前,所述方法还包括:
获取待识别文档;
利用预先训练好的地名命名实体识别模型确定待识别文档中的地名实体词;
确定各地名实体词所在的句子。
作为进一步改进,所述确定各地名实体词所在的句子的过程,具体包括:
利用正则匹配确定各地名实体词所在的完整句子。
第二方面,本发明提供了一种实体词识别装置,所述装置包括:
分类特征确定模块,用于利用预先构建好的知识图谱确定目标句子中各地名实体词之间的知识特征,并以所述知识特征作为对应目标句子的分类特征;其中,所述目标句子为待识别文档中至少包含两个地名实体词的句子;所述知识特征包括在知识图谱中预先设定的两个地名实体词之间的以下信息中的至少一个:包含关系、相邻关系、非相邻关系、距离、是否为别名;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州探迹科技有限公司,未经广州探迹科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110181496.7/2.html,转载请声明来源钻瓜专利网。