[发明专利]用于生成信息的方法和装置有效
申请号: | 202010005728.9 | 申请日: | 2020-01-03 |
公开(公告)号: | CN111241209B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 贺薇;李双婕;史亚冰;蒋烨;张扬;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06N3/0442;G06N3/048;G06N3/09 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生成 信息 方法 装置 | ||
本申请实施例公开了用于生成信息的方法和装置,计算机技术、知识图谱领域。该方法的一具体实施方式包括:获取主体关系二元组和文本,其中,主体关系二元组包括主体和关系;将文本切分成文本词序列;将主体关系二元组和文本词序列输入至预先训练的槽填充模型,得到文本词序列的标注结果,其中,槽填充模型用于标注文本词序列中的客体;基于主体关系二元组和标注结果,生成主体关系客体三元组,其中,主体关系客体三元组包括文本的主体、关系和客体。该实施方式提高了客体识别精准度。
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于生成信息的方法和装置。
背景技术
知识图谱是从语义角度用结构化形式表示的真实世界知识的大规模知识库,是一张有向图,其中包括实体(节点)、关系(边)等要素。SPO(Subject Predication Object,主语谓语宾语)三元组又叫做主体关系客体三元组,是指实体对(S和O)与它们间的关系(P)构成的三元组。从知识图谱构建的角度上看,实体关系抽取可以得到实体缺失的关系属性值,用于提升知识图谱的连通度,高效提升知识图谱的知识丰富度与完备性。
目前,常用的实体抽取方法是将主体关系二元组转化成问题,并将问题和文本输入到阅读理解模型,阅读理解模型会标注出客体在文本中的起始位置和结束位置。然而,阅读理解模型实际上是将主体关系二元组退化成了问题,丢失了结构信息,影响客体识别效果。
发明内容
本申请实施例提出了用于生成信息的方法和装置。
第一方面,本申请实施例提出了一种用于生成信息的方法,获取主体关系二元组和文本,其中,主体关系二元组包括主体和关系;将文本切分成文本词序列;将主体关系二元组和文本词序列输入至预先训练的槽填充模型,得到文本词序列的标注结果,其中,槽填充模型用于标注文本词序列中的客体;基于主体关系二元组和标注结果,生成主体关系客体三元组,其中,主体关系客体三元组包括文本的主体、关系和客体。
在一些实施例中,槽填充模型包括输入层、定位层、嵌入层、编码层、解码层和输出层。
在一些实施例中,将主体关系二元组和文本词序列输入至预先训练的槽填充模型,得到文本词序列的标注结果,包括:将主体关系二元组和文本词序列输入至输入层,得到词序列特征和距离特征;将距离特征输入到定位层,得到位置信息;将词序列特征和位置信息输入至嵌入层,得到词序列向量和位置向量;将词序列向量输入至编码层,得到编码向量;将位置向量和编码向量输入至解码层,得到解码向量;将解码向量输入至输出层,得到标注结果。
在一些实施例中,编码层包括第一双向长短期记忆网络,解码层包括位置注意力模块、关系注意力模块和第二双向长短期记忆网络。
在一些实施例中,将位置向量和编码向量输入至解码层,得到解码向量,包括:将位置向量和编码向量的拼接输入至位置注意力模块,得到文本词序列中的词距离主体和关系的位置信息;将关系的长短期记忆网络编码和编码向量输入至关系注意力模块,得到文本词序列中的词与关系的语义相似度;将编码向量、文本词序列中的词距离主体和关系的位置信息和文本词序列中的词与关系的语义相似度输入至第二双向长短期记忆网络,得到解码向量。
在一些实施例中,将解码向量输入至输出层,得到标注结果,包括:通过激活函数对文本词序列中的词的解码向量进行多分类,得到文本词序列中的词属于多种类别中的每种类别的概率,其中,多分类是计算词属于多种类别中的每种类别的概率;基于文本词序列中的词的最大概率对应的类别对文本词序列进行标注,生成标注结果。
在一些实施例中,词序列特征包括以下至少一项:文本词序列、文本词序列的词性序列、文本词序列的命名实体识别序列和关系的关系词序列,距离特征包括以下至少一项:文本词序列中的词到主体的距离、文本词序列中的词到关系的距离。
在一些实施例中,槽填充模型采用BIOES序列标注方式对文本词序列进行标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010005728.9/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置