[发明专利]一种文本相似度的计算方法以及相关设备有效

专利信息
申请号: 201910038488.X 申请日: 2019-01-16
公开(公告)号: CN109766527B 公开(公告)日: 2023-02-14
发明(设计)人: 徐乐乐 申请(专利权)人: 武汉瓯越网视有限公司
主分类号: G06F40/194 分类号: G06F40/194;G06F40/216
代理公司: 北京众达德权知识产权代理有限公司 11570 代理人: 徐松
地址: 430000 湖北省武汉市东湖新技术开*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明实施例提供了一种文本相似度的计算方法及相关设备,综合考虑了文本之间的相同分词对文本相似计算的贡献度以及文本中的各个分词的权重,相较于传统的文本相似度算法而言,获得的精确度更高。该方法包括:获取第一文本以及第二文本;对所述第一文本以及所述第二文本进行分词,以得到第一分词集合以及第二分词集合;确定所述第一分词集合中每个分词的第一权重以及所述第二分词集合中每个分词的第二权重;根据所述第一权重以及所述第二权重确定相同分词的相似度贡献值;基于所述第一权重、所述第二权重以及所述相同分词的相似度贡献值确定所述第一文本与所述第二文本的相似度。
搜索关键词: 一种 文本 相似 计算方法 以及 相关 设备
【主权项】:
1.一种文本相似度的计算方法,其特征在于,包括:获取第一文本以及第二文本,所述第一文本以及所述第二文本为待计算文本相似度的文本;对所述第一文本以及所述第二文本进行分词,以得到第一分词集合以及第二分词集合,所述第一分词集合为所述第一文本分词后得到的分词集合,所述第二分词集合为所述第二文本分词后得到的分词集合;确定所述第一分词集合中每个分词的第一权重以及所述第二分词集合中每个分词的第二权重,所述第一权重为所述第一分词集合中的每个分词在所述第一文本中的权重,所述第二权重为所述第二分词集合中的每个分词在所述第二文本中的权重;根据所述第一权重以及所述第二权重确定相同分词的相似度贡献值,所述相同分词为所述第一分词集合以及所述第二分词集合中均包含的分词;基于所述第一权重、所述第二权重以及所述相同分词的相似度贡献值确定所述第一文本与所述第二文本的相似度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉瓯越网视有限公司,未经武汉瓯越网视有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910038488.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top