[发明专利]命名实体的识别方法、装置、电子设备及计算机存储介质在审
申请号: | 201911416526.7 | 申请日: | 2019-12-31 |
公开(公告)号: | CN113128225A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 丁瑞雪;马春平;王潇斌;徐光伟;谢朋峻;黄非;司罗;龙定坤 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;舒道宏 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 方法 装置 电子设备 计算机 存储 介质 | ||
本申请实施例提供了一种命名实体的识别方法、命名实体的识别模型的训练方法、图神经网络模型的训练方法、装置、电子设备及计算机存储介质,涉及自然语言处理技术领域。其中,所述方法包括:基于用于识别命名实体的预定义标签和所述预定义标签之间的共性关系,确定所述预定义标签的表征数据,其中,所述预定义标签的表征数据包括所述预定义标签之间的共性特征数据;通过命名实体的识别模型,至少基于所述预定义标签的表征数据,识别待识别的文本中的命名实体。通过本申请实施例,能够有效提升属于预定义标签中的长尾类型的实体的识别效果。
技术领域
本申请实施例涉及自然语言处理技术领域,尤其涉及一种命名实体的识 别方法、命名实体的识别模型的训练方法、图神经网络模型的训练方法、装 置、电子设备及计算机存储介质。
背景技术
命名实体识别(Named Entity Recognition,简称NER),又作为“专名识 别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、 特定意义的网络词汇、其他专有名词等。命名实体识别在信息提取、问答系 统、句法分析、机器翻译等应用领域中发挥重要作用。因此,对文本进行命 名实体识别是很多信息处理顶层应用的基础。
目前,在命名实体识别的应用中,经常会出现一些缺乏训练数据的实体 类型(长尾类型)。属于长尾类型的实体在语料中出现的次数较少,但十分 重要。由于长尾类型实体的训练数据的数量较少,导致长尾类型实体的最终 的识别结果接近随机初始化。由此可见,如何有效提升长尾类型的实体的识 别效果成为当前亟待解决的技术问题。
发明内容
有鉴于此,本申请实施例提供一种命名实体的识别方法、命名实体的识 别模型的训练方法、图神经网络模型的训练方法、装置、电子设备及计算机 存储介质,以解决现有技术中存在的如何有效提升长尾类型的实体的识别效 果的技术问题。
根据本发明实施例的第一方面,提供了一种命名实体的识别方法。所述 方法包括:基于用于识别命名实体的预定义标签和所述预定义标签之间的共 性关系,确定所述预定义标签的表征数据,其中,所述预定义标签的表征数 据包括所述预定义标签之间的共性特征数据;通过命名实体的识别模型,至 少基于所述预定义标签的表征数据,识别待识别的文本中的命名实体。
根据本发明实施例的第二方面,提供了一种命名实体的识别装置。所述 装置包括:确定模块,用于基于用于识别命名实体的预定义标签和所述预定 义标签之间的共性关系,确定所述预定义标签的表征数据,其中,所述预定 义标签的表征数据包括所述预定义标签之间的共性特征数据;识别模块,用 于通过命名实体的识别模型,至少基于所述预定义标签的表征数据,识别待 识别的文本中的命名实体。
根据本发明实施例的第三方面,提供了一种命名实体的识别方法。所述 方法包括:确定预定义标签的数量是否超过预设数量,或者所述预定义标签 中的实体类型是否存在长尾类型,其中,所述预定义标签用于识别电商平台 的网页文本中的命名实体;如果确定所述预定义标签的数量超过所述预设数 量,或者所述预定义标签中的实体类型存在所述长尾类型,则基于所述预定 义标签和所述预定义标签之间的共性关系,确定所述预定义标签的表征数据, 其中,所述预定义标签的表征数据包括所述预定义标签之间的共性特征数据, 并通过命名实体的识别模型,至少基于所述预定义标签的表征数据,识别待 识别的所述网页文本中的命名实体。
根据本发明实施例的第四方面,提供了一种命名实体的识别模型的训练 方法。所述方法包括:通过待训练的命名实体的识别模型,至少基于用于识 别命名实体的预定义标签的表征数据,对文本样本中的命名实体进行识别, 以获得所述文本样本中的命名实体识别数据,其中,所述预定义标签的表征 数据包括所述预定义标签之间的共性特征数据;基于所述文本样本中的命名 实体识别数据和命名实体标注数据,对待训练的所述命名实体的识别模型进 行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911416526.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:腔体滤波器及其盖板组件以及通信设备
- 下一篇:一种固化炉气体回流装置