[发明专利]一种基于预训练语言模型的实体识别方法在审
申请号: | 202210361634.4 | 申请日: | 2022-04-07 |
公开(公告)号: | CN114647715A | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 戴国骏;蒋世豪;叶晨;张桦;吴以凡;支浩仕 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 语言 模型 实体 识别 方法 | ||
本发明公开了一种基于预训练语言模型的实体识别方法。本发明涉及深度学习,自然语言处理任务中的预训练语言模型和数据集成领域中的实体识别子任务。本发明添加了对于实体识别任务本身独特需求的关注,具体是提出一个关注相似片段和数字信息片段的联合实体识别模型,通过一个感知相似片段的编码器和一个感知数字片段的编码器,可以有效处理预训练语言模型在小训练集上注意力分散的问题,从而使模型能够更好的处理实体识别任务。本发明能够在小训练集上较现有最新方法有显著的提升,目前大部分方法都需要大量的训练数据,这就意味着需要大量人工参与标注数据,本发明可以有效节省人工标注的成本。
技术领域
本发明涉及深度学习,自然语言处理任务中的预训练语言模型和数据集成领域中的实体识别子任务。添加了对于实体识别任务本身独特需求的关注,具体是提出一个关注相似片段和数字信息片段的联合实体识别模型,通过一个感知相似片段的编码器和一个感知数字片段的编码器,可以有效处理预训练语言模型在小训练集上注意力分散的问题,从而使模型能够更好的处理实体识别任务。
背景技术
实体识别(又称实体解析)任务,旨在识别两个记录是否引用了相同的世界真实实体。传统的实体识别方法主要关注结构化数据,这些数据大多是原子化也就是属性值较短的。近年来,由于大数据时代对于匹配文本化的实体数据的需求不断增加,例如匹配长文本的产品描述,对传统的实体识别方法提出了挑战。
在自然语言处理NLP领域的任务中,文本分类和相似性问题跟文本数据的问题息息相关。文本分类是针对不同场景(诸如情绪分析、主题检测、问答类型检测)预测给定文本的一个或多个类别标签的任务。近来,有些研究利用了一种基于transformer的BERT结构,在模型顶层设计一个线性分类器,从而可以处理诸如文本分类、语句问答等下游任务。
得益于预训练语言模型的研究发展和应用成熟,两种基于预训练语言模型的实体识别方法被提出,分别是DITTO方法和JointBERT方法,两者都被证明能够获得更好的表现结果。DITTO可以通过在预处理期间注入独特的标记来利用领域知识,JointBERT是一种基于预训练语言模型的双目标训练方法,能够在大量数据集下获得更加优秀的表现。
然而,这些方法比较直接地使用预训练的语言模型,并将实体识别和实体本身的特点割裂视为一个自然语言处理(Natural Language Processing,NLP)任务,不考虑实体识别任务的独特需求。DITTO的领域内先验知识并不总是可用且有效的,该缺点会导致整个模型的泛化能力较差;而JointBERT在训练集有限的情况下,返而会对原有的预训练语言模型造成负面影响,降低了模型的识别准确率。
因此,本发明拟针对深度学习模型中的注意力分散和小训练集下无法关注实体数据本身特点的问题,提出能够更加关注于相似片段和数字信息的实体识别方法。
发明内容
针对上述问题,本发明提出了一种不需要手动注入独特标记和先验知识的实体识别方法,增强了对文本数据中关键数字信息和相似片段的关注。
本发明解决其技术问题所采用的技术方案如下:
步骤1:数据预处理,根据基于文本相似度的处理方法预先生成所有的实体候选对,针对每个实体候选对(记录u,记录v),先将记录u和记录v的实体文本描述分别生成序列Ⅰ和生成序列Ⅱ,然后使用特殊标识符连接生成序列Ⅰ和生成序列Ⅱ,从而得到一个综合生成序列Ⅲ。
步骤2:使用预训练语言模型(Pre-trained Language Model)将预处理之后的生成序列Ⅰ、生成序列Ⅱ和综合生成序列Ⅲ分别进行分词、提取单词嵌入向量特征,并根据不同的文本长度进行对齐,最后分别得到生成序列Ⅰ、生成序列Ⅱ和综合生成序列Ⅲ对应的词向量Eu、词向量Ev和组合后的整个词向量Et。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210361634.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法、装置、存储介质及电子设备
- 下一篇:一种电子信息无线通信装置