[发明专利]文法错误识别方法、装置、计算机设备及存储介质有效
申请号: | 201910293504.X | 申请日: | 2019-04-12 |
公开(公告)号: | CN110046350B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 罗希意;袁德璋;邓卓彬;郑利群;付志宏;何径舟 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/253;G06F40/211 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文法 错误 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种文法错误识别方法,其特征在于,包括:
获取文本序列和候选字集合,其中,候选字集合的生成基于短语替换表PT字典;
根据所述文本序列和候选字集合生成第一词向量数组表示、第二词向量数组表示和第三词向量数组表示;
根据所述文本序列和候选字集合生成N-gram统计特征和PT特征;
将所述第一词向量数组表示输入基于候选排序的语言模型的双向循环神经网络RNN网络生成第一上下文编码向量;
根据所述第二词向量数组表示和N-gram统计特征生成第一候选字特征向量;以及
根据所述第一上下文编码向量和所述第一候选字特征向量生成语言模型的相似度特征矩阵Sim;
根据所述语言模型的相似度特征矩阵Sim生成候选字集合的语言模型打分lm_probs;
所述相似度特征矩阵Sim和所述候选字集合的语言模型打分lm_probs构成候选字集合的语言模型特征;
根据所述第一词向量数组表示和所述第三词向量数组表示和所述N-gram统计特征和所述PT特征通过文法特征提取模块生成文法错误特征信息;以及
根据所述文法错误特征信息,直接生成错误输出几率的第一次打分;
根据所述错误输出几率的第一次打分,利用所述候选字集合的语言模型特征中的相似度特征矩阵Sim,进行第一级校对,生成错误输出几率的第二次打分;
根据所述错误输出几率的第二次打分,利用所述候选字集合的语言模型特征中的候选字集合语言模型打分,进行第二级校对,生成最终的错误输出几率打分。
2.如权利要求1所述的文法错误识别方法,其特征在于,所述根据所述文本序列生成第一词向量数组表示,包括:
根据所述文本序列和第一词向量表生成所述第一词向量数组表示。
3.如权利要求1所述的文法错误识别方法,其特征在于,所述根据所述文本序列和候选字集合生成第二词向量数组表示,包括:
获取所述文本序列中目标位置的字;
获取所述PT字典中与所述目标位置的字对应的召回候选字;
根据所述目标位置的字与所述目标位置的字对应的召回候选字生成候选字集合;以及
根据所述候选字集合和第二词向量表生成所述第二词向量数组表示。
4.如权利要求3所述的文法错误识别方法,其特征在于,所述根据所述文本序列和候选字集合生成第三词向量数组表示,包括:
根据所述候选字集合和第三词向量表生成第一级词向量数组表示;
根据所述目标位置生成字序列窗口,其中,所述字序列窗口为以所述目标位置为中心的固定长度的窗口;
根据所述字序列窗口获取上下文字序列;
根据所述上下文字序列和所述第三词向量表生成第二级词向量数组表示;
所述第一级词向量数组表示和所述第二级词向量数组表示构成所述第三词向量数组表示。
5.如权利要求1所述的文法错误识别方法,其特征在于,所述PT字典通过用户点击搜索日志挖掘获得。
6.如权利要求1所述的文法错误识别方法,其特征在于,所述将所述第一词向量数组表示输入所述语言模型的双向循环神经网络RNN网络生成第一上下文编码向量,包括:
将所述第一词向量数组表示输入正序循环神经网络RNN网络进行编码以生成当前位置的前一个位置的输出并作为正序编码向量;
将所述第一词向量数组表示输入逆序循环神经网络RNN网络进行编码以生成当前位置的后一个位置的输出并作为逆序编码向量;
将所述正序编码向量和所述逆序编码向量拼接形成所述第一上下文编码向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910293504.X/1.html,转载请声明来源钻瓜专利网。