[发明专利]一种基于神经网络的双向多段落阅读零样本实体链接方法和装置有效
申请号: | 202011562089.2 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112732862B | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 唐弘胤;金蓓弘 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F40/289;G06F40/30;G06N3/02;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 双向 段落 阅读 样本 实体 链接 方法 装置 | ||
1.一种基于神经网络的双向多段落阅读零样本实体链接方法,其特征在于,包括以下步骤:
将当前实体提及包含的词作为关键词,从知识库中搜索当前实体提及的候选实体;
将知识库中的候选实体的描述文本划分成固定长度的多个段落;
提取实体提及所在位置的周围固定长度的文本作为实体提及的上下文,将实体提及的上下文和候选实体的多个段落拼接,将拼接后的文本输入到编码器中进行编码,得到实体提及的上下文和候选实体每个段落的单向匹配编码向量;
利用权重池化将多个段落的单向匹配编码向量通过段落间注意力机制融合为一个匹配编码向量;
提取实体提及的更大范围的上下文,将其划分成固定长度的多个段落,将多个段落的文本送到编码器中进行编码,得到实体提及多段落编码向量;
利用融合后的单向匹配编码向量和实体提及多段落编码向量进行注意力计算,得到双向多段落匹配编码向量;
将双向多段落匹配编码向量送入一个前向神经网络中,得到实体提及和候选实体的相关度,根据相关度将实体提及链接到知识库中的候选实体上,从而实现实体链接。
2.根据权利要求1所述的方法,其特征在于,所述将当前实体提及包含的词作为关键词,从知识库中搜索当前实体提及的候选实体,包括:
将所有知识库中的实体描述文本分词,然后建立TF-IDF索引;
将预先提取的实体提及词的上下文分词,使用BM25算法检索知识库中的实体文档,将得分最高的K个实体文档作为实体提及的候选实体。
3.根据权利要求1所述的方法,其特征在于,所述将实体提及的上下文和候选实体的多个段落拼接,将拼接后的文本输入到编码器中进行编码,得到实体提及的上下文和候选实体每个段落的单向匹配编码向量,包括:
将实体提及的上下文和候选实体的多个段落拼接,在两段文本中间加入[SEP]分隔符,在输入的开头加入[CLS]占位符;
将拼接后的文本输入到编码器中进行编码,得到编码器输出的[CLS]位置的编码,作为实体提及的上下文和候选实体每个段落的单向匹配编码向量。
4.根据权利要求1所述的方法,其特征在于,所述将多个段落的文本送到编码器中进行编码,得到实体提及多段落编码向量,包括:在输入文本的开头加入[CLS]占位符,将编码器输出的[CLS]位置的编码向量作为实体提及多段落编码向量。
5.根据权利要求1所述的方法,其特征在于,在使用所述编码器进行实体链接之前,首先对编码器进行预训练,以增强编码器对文本的表示能力;所述预训练包括:
(1)使用掩码语言模型作为训练目标在大规模语料中对编码器进行预训练;
(2)基于步骤(1)训练后的编码器,使用掩码语言模型作为训练目标在实体链接人工标注语料对编码器进行预训练;
(3)基于步骤(2)训练后的编码器,使用掩码语言模型作为训练目标在目标领域的语料对编码器进行预训练。
6.根据权利要求5所述的方法,其特征在于,步骤(1)~(3)中每一步骤包括以下子步骤:
将语料中的文本处理成固定长度的段落,然后随机选取部分单词替换成[MASK]占位符;
提取文本中出现的所有能够准确匹配知识库中的实体标题的实体提及的位置,作为候选预训练掩码位置集合;
从候选预训练掩码位置集合中,随机选取部分位置替换成[MASK]占位符;
将替换后的文本通过WordPiece算法分词,然后查找词表中对应的词向量表示;
将得到的词向量表示输入到编码器中,得到每个位置的表示向量;
将得到的表示向量通过全接连层,输出[MASK]占位符的位置预测的最大概率的单词;使用交叉熵损失函数,令输入[MASK]位置输出的单词还原原始文本。
7.根据权利要求1~6中任一权利要求所述的方法,其特征在于,将所述编码器应用到实体链接任务上时,首先使用实体链接语料的标注数据对模型进行以实体链接作为目标的训练,然后使用训练完成的模型进行实体链接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011562089.2/1.html,转载请声明来源钻瓜专利网。