[发明专利]基于人工智能的文本校验方法和装置在审
申请号: | 201710404268.5 | 申请日: | 2017-06-01 |
公开(公告)号: | CN107133202A | 公开(公告)日: | 2017-09-05 |
发明(设计)人: | 朱志凡;冯仕堃;周坤胜;何径舟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 王达佐,马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 文本 校验 方法 装置 | ||
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及基于人工智能的文本校验方法和装置。
背景技术
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能领域中的自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。通常,需要利用卷积神经网络(Convolutional Neural Network,CNN)等进行文本的相似性等的校验。
然而,现有的方法所使用的卷积神经网络通常仅支持按固定的尺度(即每次输入至卷积神经网络的卷积层的卷积核的向量的个数,也可称为窗口长度)进行卷积,从而存在着对文本校验的灵活性较低的问题。
发明内容
本申请实施例的目的在于提出一种改进的基于人工智能的文本校验方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请实施例提供了一种基于人工智能的文本校验方法,该方法包括:分别对待校验的第一文本和待校验的第二文本进行分词,确定所分割的各个词的词向量,以生成与第一文本相对应的第一词向量序列和与第二文本相对应的第二词向量序列;分别将第一词向量序列和第二词向量序列输入至预先训练的、包含至少一个多尺度卷积层的卷积神经网络,将至少一个多尺度卷积层中的最后一个多尺度卷积层所输出的多个向量序列中的各向量序列确定为特征向量序列,以分别得到与各文本相对应的特征向量序列组,其中,卷积神经网络用于提取文本的特征;将所确定的、与每一个文本的相对应的特征向量序列组中的各个特征向量序列进行结合,生成与该文本相对应的结合特征向量序列;对所生成的结合特征向量序列进行解析,确定第一文本和第二文本是否通过相似性校验。
在一些实施例中,对所生成的结合特征向量序列进行解析,确定第一文本和第二文本是否通过相似性校验,包括:对于每一个文本,提取与该文本相对应的结合特征向量序列所包含的特征向量中的每一维的最大值,以生成与该文本的相对应的目标特征向量;基于所生成的、与各文本相对应的目标特征向量,确定第一文本和第二文本是否通过相似性校验。
在一些实施例中,基于所生成的、与各文本相对应的目标特征向量,确定第一文本和第二文本是否通过相似性校验,包括:将所生成的各目标特征向量输入至预先训练的相似性预测模型,得到第一文本和第二文本的相似性预测结果,其中,相似性预测模型用于表征多个文本的目标特征向量序列与多个文本的相似性预测结果的对应关系;基于所得到的相似性预测结果,确定第一文本和第二文本是否通过相似性校验。
在一些实施例中,该方法还包括训练相似性预测模型的步骤,包括:提取预设的训练样本,其中,训练样本包括第一训练文本、第二训练文本、用于指示第一训练文本和第二训练文本是否相似的标识;对第一训练文本和第二训练文本进行解析,生成分别与第一训练样本和第二训练样本相对应的目标特征向量;利用机器学习方法,将分别与第一训练样本和第二训练样本相对应的目标特征向量作为输入,将标识作为输入,训练得到相似性预测模型。
在一些实施例中,基于所生成的、与各文本相对应的目标特征向量,确定第一文本和第二文本是否通过相似性校验,包括:确定与第一文本相对应的目标特征向量和与第二文本相对应的目标特征向量的相似度;响应于确定相似度大于预设的相似度阈值,确定第一文本和第二文本通过相似性校验;响应于确定相似度不大于相似度阈值,确定第一文本和第二文本未通过相似性校验。
在一些实施例中,至少一个多尺度卷积层中的相邻多尺度卷积层之间设置有深度连贯层和池化层,深度连贯层用于将所多尺度卷积层所输出的多个向量序列进行结合以生成由多个结合向量所构成的结合向量序列,池化层用于对预设的窗口尺寸和预设的窗口滑动步长对深度连贯层所生成的结合向量序列进行解析以得到简化后的结合向量序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710404268.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于文本编码识别的热点信息采集方法和装置
- 下一篇:一种终端快捷输入方法