[发明专利]模型训练、语句处理方法、装置、计算机设备及存储介质在审

申请号：	201910113975.8	申请日：	2019-02-14
公开（公告）号：	CN109885832A	公开（公告）日：	2019-06-14
发明（设计）人：	唐雯静;王健宗	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F16/35
代理公司：	深圳众鼎专利商标代理事务所(普通合伙) 44325	代理人：	黄章辉
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语句标注模型训练语句数据计算机设备存储介质循环单元门控向量字段标签处理效率数据标注词向量阅读省略文本语音转化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种模型训练方法，其特征在于，包括：

获取已进行数据标注的语句数据集，所述语句数据集包括已标注语句，所述已标注语句包含对应的标注标签，所述标注标签用于标注需阅读字段和省略阅读字段；

对所述语句数据集中的所述已标注语句进行词向量转化，以获得每个已标注语句对应的语句向量；

将所述每个已标注语句对应的语句向量作为模型训练数据；

通过所述模型训练数据对初始门控循环单元模型进行训练，以训练出目标门控循环单元模型。

2.如权利要求1所述的模型训练方法，其特征在于，所述对所述语句数据集中的所述已标注语句进行词向量转化，以获得每个已标注语句对应的语句向量，包括：

对所述语句数据集中的每个已标注语句进行填充处理以获得固定长度的所述已标注语句；

对所述已进行填充处理的所述已标注语句进行词向量转化，以获得每个已标注语句对应的语句向量。

3.如权利要求2所述的模型训练方法，其特征在于，所述对所述已进行填充处理的所述已标注语句进行词向量转化，以获得每个已标注语句对应的语句向量，包括：

针对所述语句数据集中的每个已标注语句，采用全切分词方法进行分词处理；

针对经过所述分词处理的每个已标注语句中的每个词，采用wone hot key方法构建词向量；

将所述每个已标注语句中的每个词向量，对应构成每个所述已标注语句对应的语句向量。

4.如权利要求1-3任一项所述的模型训练方法，其特征在于，所述通过所述模型训练数据对初始门控循环单元模型，以训练出目标门控循环单元模型，包括：

初始化所述初始门控循环单元模型的初始模型参数，所述初始模型参数包括W_z、U_z、W_r、U_r、W_h和U_h，其中，所述W_z表示当前时刻的输入到当前时刻的重置门z的连接矩阵，所述U_z表示上一时刻的隐藏层到所述重置门z的连接矩阵，所述W_r表示当前时刻的输入到当前时刻的更新门r的连接矩阵，所述U_r表示上一时刻的隐藏层到当前时刻的所述更新门r的连接矩阵；所述W_h表示当前时刻的输入到当前时刻的候选隐藏状态的连接矩阵，所述U_h表示上一时刻的隐藏层到候选隐藏状态的连接矩阵；