[发明专利]用于使用深度神经网络来进行独立于领域和语言的定义提取的系统和方法在审
申请号: | 201880090471.2 | 申请日: | 2018-12-27 |
公开(公告)号: | CN111742322A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 贺一帆;赵林;徐魁;冯哲 | 申请(专利权)人: | 罗伯特·博世有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N3/08;G06N3/04 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 张健;陈岚 |
地址: | 德国斯*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 使用 深度 神经网络 进行 立于 领域 语言 定义 提取 系统 方法 | ||
1.一种用于从文本媒体中自动生成术语定义知识库(KB)的方法,所述方法包括:
接收单词序列以在构建术语定义KB中使用;
使用密集向量表示将所述单词序列中的每个单词映射到实值密集向量;
使用卷积神经网络(CNN)定义标识模型基于单词的密集向量表示来处理所述单词序列,以标识所述单词序列是否包括术语定义,并且利用指示所述单词序列内是否存在术语定义的标记来标记所述单词序列;
使用条件随机场(CRF)定义提取模型基于单词的密集向量表示以及所述标记来处理所述单词序列,以标识所述单词序列中的术语定义的边界;
将术语定义添加到术语定义KB。
2.根据权利要求1所述的方法,其中密集向量表示是由单词表示训练组件生成的,单词表示训练组件接收文本集合作为输入,并且使用跳字递归神经网络(RNN)来处理所述文本集合以生成密集向量表示。
3.根据权利要求1所述的方法,其中所述标记是二进制标记,其指示所述单词序列内的术语定义的存在是真还是假。
4.根据权利要求3所述的方法,其中CNN定义标识模型是由CNN训练组件生成的,CNN训练组件使用密集向量表示和多个训练单词序列来训练CNN定义标识模型,以自动标识单词序列是否包括术语定义,并且将适当的二进制标记指派给所述单词序列。
5.根据权利要求4所述的方法,其中指派给相应训练单词序列的所述标记是由人类注释者指派的。
6.根据权利要求1所述的方法,其中CRF定义提取模型是由CRF训练组件生成的,CRF训练组件使用密集向量表示以及由CNN定义标识模型指派的所述二进制标记来训练CRF定义提取模型,以自动检测所述单词序列情况下的术语定义的边界。
7.根据权利要求1所述的方法,其中CRF定义提取模型被配置成:对所述单词序列中属于所述单词序列中的术语定义的一部分的单词加标签。
8.一种用于从文本媒体中自动生成术语定义知识库(KB)的系统,所述系统包括:
定义提取组件,其被配置成使用密集向量表示、CNN定义标识模型和CRF定义提取模型来处理单词序列,以提取所述单词序列中找到的术语定义,并且将所提取的术语定义添加到术语定义KB,
其中密集向量表示用于将所述单词序列中的单词映射到实值向量,
其中CNN定义标识模型基于密集向量表示来处理所述单词序列,以标识相应的单词序列是否包括术语定义,并且利用指示所述单词序列内是否存在术语定义的标记来标记所述单词序列,以及
其中CRF定义提取模型基于单词的密集向量表示以及由CNN定义标识模型指派的所述标记来处理所述单词序列,以标识所述单词序列中的术语定义的边界。
9.根据权利要求8所述的系统,其中密集向量表示是由单词表示训练组件生成的,单词表示训练组件接收文本集合作为输入,并且使用跳字递归神经网络(RNN)来处理所述文本集合以生成密集向量表示。
10.根据权利要求8所述的系统,其中所述标记是二进制标记,其指示所述单词序列内的术语定义的存在是真还是假。
11.根据权利要求10所述的系统,其中CNN定义标识模型是由CNN训练组件生成的,CNN训练组件使用密集向量表示和多个训练单词序列来训练CNN定义标识模型,以自动标识单词序列是否包括术语定义,并且将适当的二进制标记指派给所述单词序列。
12.根据权利要求11所述的系统,其中指派给相应训练单词序列的所述标记是由人类注释者指派的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880090471.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于个人UV暴露测量的装置和系统
- 下一篇:始终开启的关键字检测器