[发明专利]能力词实体识别方法在审

申请号：	201911097142.3	申请日：	2019-11-11
公开（公告）号：	CN110837737A	公开（公告）日：	2020-02-25
发明（设计）人：	郭橙;龚军;温秀秀;刘佩云;杨璧竹	申请（专利权）人：	中国电子科技集团公司信息科学研究院
主分类号：	G06F40/295	分类号：	G06F40/295
代理公司：	北京辰权知识产权代理有限公司 11619	代理人：	刘广达
地址：	100086 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	能力实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种能力词实体识别方法，包括：获取待识别的原始文档，根据标注规则对所述原始文档进行标注，得到短语结构的目标能力词，将所述目标能力词作为新细胞加入到基于字级别标注的第一实体识别模型中，得到第二能力词实体识别模型，基于所述第二能力词实体识别模型识别能力词实体。该方法增强了对短语结构的能力词的识别能力，而且避免了对中文进行分词产生的歧义和错误问题，提高了识别的准确率。

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种能力词实体识别方法。

背景技术

目前，语义技术与物联网的结合形成了语义物联网，其中，能力是物联网物体的本质体现，物体所具有的能力决定了物体是什么和可以做什么，因此为物联网中的物体添加关于能力的语义信息至关重要，是实现语义物联网和物联网智能化的有效途径。

随着人工智能技术的发展，可以通过实体识别模型对目标能力词进行识别，现有技术中，基于字级别标注的实体识别模型和基于词级别标注的实体识别模型都可以对能力词进行识别，但是物联网中设备的能力词种类繁多，包括单词和短语结构词等，基于字级别标注的实体识别模型没有利用词级别的隐含信息，对复杂结构如短语结构的目标能力词缺少识别能力，具有一定的局限性，基于词级别标注的实体识别模型需要进行分词，会引入分词歧义和分词错误的问题，降低识别的准确率。

发明内容

本公开实施例提供了一种能力词实体识别方法。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

在一些实施例中，一种能力词实体识别方法包括：

获取待识别的原始文档；

根据标注规则对原始文档进行标注，得到短语结构的目标能力词；

将目标能力词作为新细胞加入到基于字级别标注的第一实体识别模型中，得到第二能力词实体识别模型；

基于第二能力词实体识别模型识别能力词实体。

可选地，根据标注规则对原始文档进行标注，得到短语结构的目标能力词包括：

分别使用B、I、E、S和O标注符号对原始文档中的每个字进行标注，其中，B用于标注原始文档中的目标能力词的起始位，I用于标注原始文档中的目标能力词的中间位，E用于标注原始文档中的目标能力词的末位，S用于标注原始文档中的目标能力词的单个字或词，O用于标注原始文档中的与目标能力词无关的位。

可选地，将目标能力词作为新细胞加入到基于字级别标注的第一实体识别模型中，得到第二能力词实体识别模型包括：

新细胞的嵌入位置为基于字级别标注的第一实体识别模型中目标能力词末位字细胞和倒数第二个字细胞的中间。

可选地，将目标能力词作为新细胞加入到基于字级别标注的第一实体识别模型中，得到第二能力词实体识别模型包括：