[发明专利]一种文本相似度的识别方法、系统、设备和存储介质在审
申请号: | 202010843758.7 | 申请日: | 2020-08-20 |
公开(公告)号: | CN111949766A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 卓民;杨楠 | 申请(专利权)人: | 深圳市卡牛科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 潘登 |
地址: | 518000 广东省深圳市南山区粤海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 相似 识别 方法 系统 设备 存储 介质 | ||
本发明实施例公开了一种文本相似度的识别方法、系统、设备和存储介质。该方法包括:获取目标文本;将所述目标文本转换为目标特征矩阵;将所述目标特征矩阵输入至预先训练好的神经网络模型以得到所述目标文本的目标文本特征;从预设数据库中获取对比文本的对比文本特征;根据所述目标文本特征和对比文本特征确定所述目标文本和对比文本的文本相似度。本发明实施例实现了快速确定文本之间相似度。
技术领域
本发明实施例涉及文本技术,尤其涉及一种文本相似度的识别方法、系统、设备和存储介质。
背景技术
随着数字媒体技术和神经网络技术的蓬勃发展,包括文本图像在内的多媒体资源规模越来越大,且神经网络技术的应用也越来越广泛。
多个文本之间的相似度逐渐成为自然语言处理领域中的一个研究热点,但是,传统的文本相似度识别方法,需要依赖基于OCR的复杂模型,才能达到较好的文本相似性检测效果。而文本内容的视觉呈现方式大致相同,在文本识别的早期研究中,特征提取需要经过版面分析、行切分、单字切分、单字识别等过程,而在近几年,基于神经网络的特征提取技术已经成为一个重要的研究方向。在各种神经网络模型中,卷积神经网络是图像处理任务中最强大的网络模型,使图像可以直接作为网络的输入,避免了传统识别方法中复杂的特征提取与数据重建过程。
但是目前还是没有一种很好的方法能将神经网络技术融入文本相似度识别之中,以至于没有办法实现文本之间的相似度的快速确定。
发明内容
本发明实施例提供一种文本相似度的识别方法、系统、设备和存储介质,以实现快速确定文本之间相似度。
为达此目的,本发明实施例提供了一种文本相似度的识别方法,该方法包括:
获取目标文本;
将所述目标文本转换为目标特征矩阵;
将所述目标特征矩阵输入至预先训练好的神经网络模型以得到所述目标文本的目标文本特征;
从预设数据库中获取对比文本的对比文本特征;
根据所述目标文本特征和对比文本特征确定所述目标文本和对比文本的文本相似度。
进一步的,所述将所述目标文本转换为目标特征矩阵包括:
将所述目标文本划分为多个段落;
对每个段落进行分词以得到多个词语或多个单字;
将所述多个词语或多个单字输入至预先训练好的语言模型以得到每个段落的第一特征向量;
将所述第一特征向量进行拼接以得到多个段落的目标特征矩阵。
进一步的,所述将所述目标特征矩阵输入至预先训练好的神经网络模型以得到所述目标文本的目标文本特征包括:
对所述目标特征矩阵进行卷积以得到多个第二特征向量;
对所述第二特征向量池化以得到所述目标文本的目标文本特征。
进一步的,所述根据所述目标文本特征和对比文本特征得到确定目标文本和对比文本的文本相似度之后包括:
获取和所述目标文本相似度最高的目标对比文本。
进一步的,所述获取和所述目标文本相似度最高的目标对比文本之后包括:
获取所述目标对比文本的多个段落的目标对比特征矩阵;
根据所述目标特征矩阵和目标对比特征矩阵确定所述目标文本和目标对比文本相似度最高的段落。
进一步的,所述根据所述目标特征矩阵和对比特征矩阵确定所述目标文本和目标对比文本相似度最高的段落之后包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市卡牛科技有限公司,未经深圳市卡牛科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010843758.7/2.html,转载请声明来源钻瓜专利网。