[发明专利]文本匹配的方法、装置和存储介质有效
申请号: | 201810185499.6 | 申请日: | 2018-03-07 |
公开(公告)号: | CN110245342B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 王骏龙 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/30 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 贺琳 |
地址: | 开曼群岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 匹配 方法 装置 存储 介质 | ||
1.一种文本匹配的方法,其特征在于,包括:
分别对匹配段落文本和被匹配段落文本分词,生成至少一个匹配词和至少一个被匹配词;
将所述匹配词和所述被匹配词分别扩展为中间匹配词和中间被匹配词;
基于将所述匹配词、所述被匹配词、所述中间匹配词、所述中间被匹配词,构建文本关系图;
计算所述文本关系图中从源点到汇点的最短距离;
根据所述最短距离与距离阈值,确定所述匹配段落文本与所述被匹配段落文本匹配;
其中,将所述匹配词和所述被匹配词分别扩展为中间匹配词和中间被匹配词,包括:
基于预定窗口阈值,将所述匹配词扩展为多个包括所述匹配词的所述中间匹配词;
基于所述预定窗口阈值,将所述被匹配词扩展为多个包括所述被匹配词的所述中间匹配词;
其中,所述基于将所述匹配词、所述被匹配词、所述中间匹配词、所述中间被匹配词,构建文本关系图,包括:
分别对所述匹配词和所述被匹配词进行向量化表示,得到匹配向量值和被匹配向量值;
累加所述中间匹配词中的所述匹配词的匹配向量值,得到中间匹配向量值;
累加所述中间匹配词中的所述被匹配词的被匹配向量值,得到中间被匹配向量值;
基于所述匹配向量值、所述被匹配向量值、所述中间匹配向量值和所述中间被匹配向量值,分别将所述匹配词、所述被匹配词、所述中间匹配词、所述中间被匹配词抽象为匹配点、被匹配点、中间匹配点、中间被匹配点;
设置所述源点和所述汇点;
分别将所述源点、所述匹配点、所述中间匹配点、所述中间被匹配点、所述被匹配点、所述汇点进行二分图全连接,构建文本关系图。
2.根据权利要求1所述的方法,其特征在于,计算所述文本关系图中从源点到汇点的最短距离,包括:
计算所述文本关系图中的任意两个点之间的欧氏距离;
基于所述任意两个点之间的欧氏距离,判断是否存在所述源点至所述汇点之间最短路径;
当存在所述最短路径时,更新所述源点至所述汇点之间的路径,并继续判断更新后的路径是否是剩余路径中的最短路径;
当不存在所述最短路径时,累加所述最短路径得到所述最短距离。
3.根据权利要求1所述的方法,其特征在于,分别对所述匹配词和所述被匹配词进行向量化表示,包括:
基于word2vec的方式,分别对所述匹配词和所述被匹配词进行向量化表示。
4.根据权利要求1所述的方法,其特征在于,根据所述最短距离与距离阈值,确定所述匹配段落文本与所述被匹配段落文本匹配,包括:
将所述最短距离与距离阈值比较,获取比较结果;
当所述比较结果指示所述最短距离小于或者等于所述距离阈值时,确定所述匹配段落文本与所述被匹配段落文本匹配。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述距离阈值与所述匹配段落文本的数量级的大小正相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810185499.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:标识码批量生成方法及装置
- 下一篇:弹幕分析方法及装置