[发明专利]基于人工智能的文本校验方法和装置在审
申请号: | 201710404268.5 | 申请日: | 2017-06-01 |
公开(公告)号: | CN107133202A | 公开(公告)日: | 2017-09-05 |
发明(设计)人: | 朱志凡;冯仕堃;周坤胜;何径舟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 王达佐,马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 文本 校验 方法 装置 | ||
1.一种基于人工智能的文本校验方法,其特征在于,所述方法包括:
分别对待校验的第一文本和待校验的第二文本进行分词,确定所分割的各个词的词向量,以生成与所述第一文本相对应的第一词向量序列和与所述第二文本相对应的第二词向量序列;
分别将所述第一词向量序列和所述第二词向量序列输入至预先训练的、包含至少一个多尺度卷积层的卷积神经网络,将所述至少一个多尺度卷积层中的最后一个多尺度卷积层所输出的多个向量序列中的各向量序列确定为特征向量序列,以分别得到与各文本相对应的特征向量序列组,其中,所述卷积神经网络用于提取文本的特征;
将所确定的、与每一个文本的相对应的特征向量序列组中的各个特征向量序列进行结合,生成与该文本相对应的结合特征向量序列;
对所生成的结合特征向量序列进行解析,确定所述第一文本和所述第二文本是否通过相似性校验。
2.根据权利要求1所述的文本校验方法,其特征在于,所述对所生成的结合特征向量序列进行解析,确定所述第一文本和所述第二文本是否通过相似性校验,包括:
对于每一个文本,提取与该文本相对应的结合特征向量序列所包含的特征向量中的每一维的最大值,以生成与该文本的相对应的目标特征向量;
基于所生成的、与各文本相对应的目标特征向量,确定所述第一文本和所述第二文本是否通过相似性校验。
3.根据权利要求2所述的文本校验方法,其特征在于,所述基于所生成的、与各文本相对应的目标特征向量,确定所述第一文本和所述第二文本是否通过相似性校验,包括:
将所生成的各目标特征向量输入至预先训练的相似性预测模型,得到所述第一文本和所述第二文本的相似性预测结果,其中,所述相似性预测模型用于表征多个文本的目标特征向量序列与所述多个文本的相似性预测结果的对应关系;
基于所得到的相似性预测结果,确定所述第一文本和所述第二文本是否通过相似性校验。
4.根据权利要求3所述的文本校验方法,其特征在于,所述方法还包括训练相似性预测模型的步骤,包括:
提取预设的训练样本,其中,所述训练样本包括第一训练文本、第二训练文本、用于指示所述第一训练文本和所述第二训练文本是否相似的标识;
对所述第一训练文本和所述第二训练文本进行解析,生成分别与所述第一训练样本和所述第二训练样本相对应的目标特征向量;
利用机器学习方法,将分别与所述第一训练样本和所述第二训练样本相对应的目标特征向量作为输入,将所述标识作为输入,训练得到相似性预测模型。
5.根据权利要求2所述的文本校验方法,其特征在于,所述基于所生成的、与各文本相对应的目标特征向量,确定所述第一文本和所述第二文本是否通过相似性校验,包括:
确定与所述第一文本相对应的目标特征向量和与所述第二文本相对应的目标特征向量的相似度;
响应于确定所述相似度大于预设的相似度阈值,确定所述第一文本和所述第二文本通过相似性校验;
响应于确定所述相似度不大于所述相似度阈值,确定所述第一文本和所述第二文本未通过相似性校验。
6.根据权利要求1所述的文本校验方法,其特征在于,所述至少一个多尺度卷积层中的相邻多尺度卷积层之间设置有深度连贯层和池化层,所述深度连贯层用于将所多尺度卷积层所输出的多个向量序列进行结合以生成由多个结合向量所构成的结合向量序列,所述池化层用于对预设的窗口尺寸和预设的窗口滑动步长对深度连贯层所生成的结合向量序列进行解析以得到简化后的结合向量序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710404268.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于文本编码识别的热点信息采集方法和装置
- 下一篇:一种终端快捷输入方法