[发明专利]创建用于自然语言处理装置的训练数据的方法和设备在审

申请号：	201610640647.X	申请日：	2016-08-05
公开（公告）号：	CN107688583A	公开（公告）日：	2018-02-13
发明（设计）人：	王晓利;张永生;刘康;王炳宁;陈玉博;魏琢钰;赵军	申请（专利权）人：	株式会社NTT都科摩;中国科学院自动化研究所
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/62
代理公司：	北京市柳沈律师事务所11105	代理人：	张晓明
地址：	日本***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	创建用于自然语言处理装置训练数据方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种创建用于自然语言处理系统的训练数据的方法，包括：

接收创建所述训练数据的请求；

获得用于创建所述训练数据的自然语言语料库输入；

确定所述训练数据所需的分包参数；

基于所述分包参数，将所述自然语言语料库输入分为多个包，所述多个包的每个包括多个示例；

对于所述多个示例的每一个，自动提取句子级特征向量，

其中，具有所述句子级特征向量的所述多个包作为所述训练数据。

2.如权利要求1所述的方法，其中所述确定所述训练数据所需的分包参数包括：

基于创建所述训练数据的请求和/或所述自然语言语料库输入的来源，确定所述分包参数。

3.如权利要求1所述的方法，其中对于所述多个示例的每一个，自动提取句子级特征向量包括：

对于所述多个示例的每一个示例中的每个词汇元素，提取预定窗口范围内的多个词汇作为词语特征，提取其与目标词的距离作为位置特征；

对所述词语特征和所述位置特征组成的特征向量执行最大池化，获得所述句子级特征向量。

4.如权利要求1到3的任一所述的方法，还包括：利用所述训练数据，训练分类器或构造知识库。

5.如权利要求4所述的方法，其中所述利用所述训练数据，训练分类器包括：

初始化所述分类器的神经网络参数；

随机选择所述多个包中的一个包；

确定所述一个包中使得目标函数最大化的一个示例；

基于所述一个示例的梯度更新所述分类器的神经网络参数，直到所述神经网络收敛。

6.一种创建用于自然语言处理系统的训练数据的设备，包括：

请求接收模块，用于接收创建所述训练数据的请求；

输入模块，用于获得用于创建所述训练数据的自然语言语料库输入；

分包参数确定模块，用于确定所述训练数据所需的分包参数；

分包模块，用于基于所述分包参数，将所述自然语言语料库输入分为多个包，所述多个包的每个包括多个示例；

特征向量提取模块，用于对于所述多个示例的每一个，自动提取句子级特征向量，

其中，具有所述句子级特征向量的所述多个包作为所述训练数据。

7.如权利要求6所述的设备，其中所述分包参数确定模块基于创建所述训练数据的请求和/或所述自然语言语料库输入的来源，确定所述分包参数。

8.如权利要求6所述的设备，其中所述特征向量提取模块对于所述多个示例的每一个示例中的每个词汇元素，提取预定窗口范围内的多个词汇作为词语特征，提取其与目标词的距离作为位置特征；

对所述词语特征和所述位置特征组成的特征向量执行最大池化，获得所述句子级特征向量。

9.如权利要求6到8的任一所述的设备，其中所述训练数据用于训练分类器或构造知识库。

10.如权利要求9所述的设备，还包括分类器训练模块，所述分类器训练模块用于：

初始化所述分类器的神经网络参数；

随机选择所述多个包中的一个包；

确定所述一个包中使得目标函数最大化的一个示例；

基于所述一个示例的梯度更新所述分类器的神经网络参数，直到所述神经网络收敛。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于株式会社NTT都科摩;中国科学院自动化研究所，未经株式会社NTT都科摩;中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610640647.X/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载