[发明专利]长文本匹配方法及装置、存储介质、电子设备有效

专利信息
申请号: 202010811453.8 申请日: 2020-08-13
公开(公告)号: CN111930894B 公开(公告)日: 2022-10-28
发明(设计)人: 陈灿宇;赵瑞辉 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F40/30;G06N3/04
代理公司: 深圳市联鼎知识产权代理有限公司 44232 代理人: 叶虹
地址: 518057 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 匹配 方法 装置 存储 介质 电子设备
【说明书】:

本公开提供一种长文本匹配方法及装置、电子设备、存储介质;涉及人工智能技术领域。所述长文本匹配方法包括:获取第一长文本数据以及第二长文本数据;构建第一长文本数据对应的第一共现矩阵,以及构建第二长文本数据对应的第二共现矩阵;基于第一共现矩阵以及第二共现矩阵,构建第一长文本数据与第二长文本数据对应的相似度交互矩阵;对相似度交互矩阵进行转化处理,得到第一长文本数据与第二长文本数据对应的匹配结果,以根据匹配结果在第二长文本数据中选择与第一长文本数据匹配的目标长文本数据。本公开可以为输入的长文本数据匹配相似度较高的长文本数据,提高匹配的长文本数据的准确度。

技术领域

本公开涉及人工智能技术领域,具体而言,涉及一种长文本匹配方法、长文本匹配装置、电子设备以及计算机可读存储介质。

背景技术

随着科学技术的飞速发展,人工智能(Artificial Intelligence,AI)技术越来越得到人们的重视。其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

目前,相关的文本匹配技术方案中,大多数都是针对短文本的匹配,而将短文本对应的匹配方案应用到长文本匹配时,匹配结果的准确率较低,影响相关产品的用户体验。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种长文本匹配方法、长文本匹配装置、电子设备以及计算机可读存储介质,进而在一定程度上克服由于相关技术的限制和缺陷而导致的,在对长文本数据进行匹配时,匹配结果的准确度较低的问题。

根据本公开的第一方面,提供一种长文本匹配方法,包括:

获取输入的第一长文本数据以及待匹配的第二长文本数据;

对所述第一长文本数据与所述第二长文本数据分别进行长文本内部表征处理,以构建所述第一长文本数据对应的第一共现矩阵,以及构建所述第二长文本数据对应的第二共现矩阵;

基于所述第一共现矩阵以及所述第二共现矩阵,构建能够表征所述第一长文本数据与所述第二长文本数据之间交互关系的相似度交互矩阵;

对所述相似度交互矩阵进行转化处理,得到所述第一长文本数据与所述第二长文本数据对应的匹配结果,以根据所述匹配结果在所述第二长文本数据中选择与所述第一长文本数据匹配的目标长文本数据。

在本公开的一种示例性实施例中,在获取输入的第一长文本数据以及待匹配的第二长文本数据之后,所述方法还包括:

对所述第一长文本数据和所述第二长文本数据进行切词处理;

根据预训练的词向量模型将切词处理后的第一长文本数据和切词处理后的第二长文本数据进行转化处理,得到第一词向量序列以及第二词向量序列。

在本公开的一种示例性实施例中,所述构建所述第一长文本数据对应的第一共现矩阵,以及构建所述第二长文本数据对应的第二共现矩阵,包括:

基于所述第一词向量序列构建所述第一长文本数据对应的第一共现矩阵;以及

基于所述第二词向量序列构建所述第二长文本数据对应的第二共现矩阵。

在本公开的一种示例性实施例中,基于所述第一词向量序列构建所述第一长文本数据对应的第一共现矩阵,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010811453.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top