[发明专利]基于IDCNN和注意力机制的招投标文本实体识别方法在审
申请号: | 202110525979.4 | 申请日: | 2021-05-14 |
公开(公告)号: | CN112949637A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 李芳芳;彭亦楠;单悠然 | 申请(专利权)人: | 中南大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 | 代理人: | 滕澧阳 |
地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 idcnn 注意力 机制 投标 文本 实体 识别 方法 | ||
本发明涉及一种基于IDCNN和注意力机制的招投标文本实体识别方法,具体包括如下步骤:S1:构建嵌入层,以字为单位,将文本中的每个字符映射为向量,得到字向量;S2:计算文本中每个字符的位置向量,得到位置向量;S3:将得到的字向量和位置向量进行拼接,作为嵌入层的输出;S4:构建IDCNN层,将嵌入层的输出输入IDCNN层,进行迭代计算后输出;S5:构建注意力层,将IDCNN层的输出输入至注意力层进行计算并输出;S6:构建CRF层,将注意力层的输出输入CRF层后,计算得到每个字符的标签的概率,得到预测结果。本发明将字向量与位置向量拼接,让模型在学习到语义信息的同时捕获到实体间的依赖关系。
技术领域
本发明涉及文本数据处理领域、自然语言处理领域,尤其涉及一种基于IDCNN和注意力机制的招投标文本实体识别方法。
背景技术
命名实体识别是自然语言处理的重要子任务之一,目前已被广泛应用在了社会生活的方方面面,同样,在招投标相关工作中,命名实体识别技术也发挥着重要的作用。在进行招标、投标的过程中,命名实体识别技术往往被用来提取招投标文本数据中的关键信息,如提取招投标数据中的“项目名称”、“预算金额”、“成交金额”等实体。通过对这些关键信息进行提取,能够辅助招标机构和投标机构进行相应的决策,提高招投标的效果。
常用的命名实体识别方法主要有基于规则的方法和基于深度学习的方法。基于规则的方法需要人工对文本的特点进行分析,设计出合适的规则来对文本中的实体进行提取。但这种方法最终的效果受限于规则的质量,若制定的规则有缺陷,则最终实体识别的效果也不佳。基于深度学习的方法可以自动提取文本中的特征,无需进行复杂的提取特征的工程,而且命名实体识别的效果和鲁棒性要明显好于基于规则的方法。因此目前基于深度学习的方法逐渐成为了命名实体识别的主流方法。
虽然目前基于深度学习的方法成为了命名实体识别的主流方法,但目前用深度学习方法针对招投标数据进行实体识别的研究仍较少,且由于招投标数据的特殊性,在对其进行实体识别的过程中往往面临着3个问题:
常见的中文命名实体识别方法在对文本进行向量化时,往往只是简单地将文本转化为词向量,没有考虑到实体间的依赖关系。而在招投标文本数据集中,一方面,由于文本普遍长度较长,且语境复杂,在进行实体识别任务时会出现一词多义的问题,同一个词可能会被识别为多种实体,单纯使用词向量对文本进行表示效果不佳;另一方面,在招投标文本数据待提取的24个实体中,有较多的实体在文本数据中存在着较强的依赖关系,单纯使用词向量进行文本向量化不能很好地让模型捕获到实体间的依赖关系。
常见的中文命名实体识别方法往往只使用了单一的深度学习模型,而单一的深度学习模型往往将文本中提取出的每一个特征视为同等重要。而事实上招投标文本数据集由于文本较长,其中存在着大量无用的噪声信息,因此将提取出的特征视为同等重要无疑制约了实体识别模型精度的提高。
常见的中文命名实体识别方法最终的效果往往仅依靠模型的精度,而在对招投标数据进行实体识别的过程中,由于数据具有长度长、语境复杂、待识别实体种类多、实体类型相似等特点,仅通过模型来预测容易出现某些字段有多个预测结果而其相似字段没有预测结果的问题,造成最终实体识别精度不高。
发明内容
本发明的目的是在招投标文本实体识别任务中提出了一个基于IDCNN和注意力机制的招投标文本实体识别方法。该方法首先在文本向量化处理过程中,将字向量与位置向量拼接来对文本进行向量化表示,让模型在学习到语义信息的同时捕获到实体间的依赖关系;其次,该方法使用IDCNN和注意力机制相结合的方法来构建模型,降低了模型学习过程中无用特征对模型的影响;最后,该方法设计了模型后处理机制,通过设定规则的方式对模型的结果进行优化,从而提高了最终实体识别的精度。
为达到上述目的而采用了一种基于IDCNN和注意力机制的招投标文本实体识别方法,具体包括如下步骤:
S1:构建嵌入层,以字为单位,将文本中的每个字符映射为向量,得到字向量;
S2:计算文本中每个字符的位置向量,得到位置向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110525979.4/2.html,转载请声明来源钻瓜专利网。