[发明专利]文本相似度的计算方法和装置有效

申请号：	201910780309.X	申请日：	2019-08-22
公开（公告）号：	CN110516210B	公开（公告）日：	2023-06-27
发明（设计）人：	沈灿	申请（专利权）人：	北京影谱科技股份有限公司
主分类号：	G06F40/194	分类号：	G06F40/194;G06F40/216;G06N3/049;G06N3/0442
代理公司：	北京万思博知识产权代理有限公司 11694	代理人：	孙黎生
地址：	100000 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本相似计算方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本相似度的计算方法，包括：

预先获取多个类别的语料作为文本数据集，对所述文本数据集进行预处理；

从所述预处理后的文本数据集中取出第一文档和第二文档，按照如下相同的方法分别求出对应的第一文本向量和第二文本向量；

采用Word2vec模型对当前文档进行计算得到数据向量；

采用TF-IDF算法对所述当前文档进行计算得到文本权重；

将所述数据向量与所述文本权重进行数据融合得到融合向量；

将所述融合向量输入LSTM长短时记忆网络模型生成特征向量，对所述特征向量中的所有特征值求和，得到所述当前文档对应的文本向量；

采用余弦相似度算法计算所述第一文本向量和第二文本向量的相似度，得到所述第一文档和第二文档的相似度；

其中，对所述特征向量中的所有特征值求和，得到所述当前文档对应的文本向量，包括：

按照如下公式计算所述当前文档对应的文本向量：

其中，h_i为所述特征向量[h₁,...,h_n]中的第i个特征值，n为所述特征向量中特征值的总数，Sen为所述当前文档对应的文本向量。

2.根据权利要求1所述的方法，其特征在于，采用余弦相似度算法计算所述第一文本向量和第二文本向量的相似度，得到所述第一文档和第二文档的相似度，包括：

采用如下公式计算所述第一文本向量和第二文本向量的相似度，得到所述第一文档和第二文档的相似度：

其中，Sen为所述第一文本向量，Sen′为所述第二文本向量，S为所述第一文本向量和第二文本向量的相似度。

3.根据权利要求1所述的方法，其特征在于，将所述数据向量与所述文本权重进行数据融合得到融合向量，包括：

按照如下公式将所述数据向量与所述文本权重进行数据融合得到融合向量：

其中，F-Vec为融合向量，n为所述当前文档中的词汇数目，为所述数据向量中的第i个数据，TF-IDF(w_i)为词汇w_i的文本权重。

4.根据权利要求1所述的方法，其特征在于，采用TF-IDF算法对所述当前文档进行计算得到文本权重，包括：

采用如下公式对所述当前文档进行计算得到文本权重：

其中，TF-IDF(w_i)为词汇w_i的文本权重，TF_i,j为词汇w_i的词频，IDF_i为词汇w_i的逆向文件频率，n_i,j代表词汇w_i在所述当前文档中出现的频率，代表所述当前文档中所有词汇数目；|D|代表所述文本数据集中的所有文档个数，{j：w_i∈d_j}代表所述文本数据集中出现所述词汇w_i的文档个数，加一是为了防止出现分母为零的情况。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京影谱科技股份有限公司，未经北京影谱科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910780309.X/1.html，转载请声明来源钻瓜专利网。

上一篇：在界面中呈现可视反馈的方法、系统和计算机可读介质
下一篇：一种Word文档转换为长图片的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文本相似度的计算方法和装置有效

专利文献下载