[发明专利]从海量短新闻中识别相似新闻的方法及相关设备有效

申请号：	202011093664.9	申请日：	2020-10-14
公开（公告）号：	CN112182337B	公开（公告）日：	2021-10-22
发明（设计）人：	贾宁	申请（专利权）人：	数库（上海）科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/31;G06F16/33;G06F40/194;G06F40/284
代理公司：	上海十蕙一兰知识产权代理有限公司 31331	代理人：	刘秋兰
地址：	201112 上海市闵行***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	海量新闻识别相似方法相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.从海量短新闻中识别相似新闻的方法，包括：

获取预设的格式化主体词汇并建立索引；

具体包括：从数据库中获取预设的格式化主体词汇，加入到词表W；

分别建立索引数据结构IW、名称长度数组WL；

从所述词表W中取出词w_i，i∈[1，N]；其中，i表示w_i是W中的第i个词，W中共有N个词；

取w_i中的第j个字c_j，j∈[1，n]；其中，n是w_i中的英文、阿拉伯数字和GB2312编码汉字字符的数量；

将字c_j转换为位置索引idx_j；

将i添加到索引数据结构IW[idx_j]内；

直至词w_i内的每个字都完成位置索引的转换后，将n添加到名称长度数组WL中，当所述词表W中所有的词w_i完成位置索引，则初始化结束；

获取多篇新闻，对每篇所述新闻进行向量化；

计算每篇目标新闻与其他新闻是否相似，将与所述目标新闻相似的其他新闻作为相似新闻；

具体包括：通过矩阵减法计算所述目标新闻和所有其他新闻向量的差，得到两个新闻之间的差异量，判断所述差异量是否满足预设的相似阈值条件，将满足所述相似阈值条件的新闻作为相似新闻；更具体地，每篇所述新闻进行向量化后得到新闻向量矩阵A，取所述新闻向量矩阵A的行向量A_i，i∈[1，M]，M是新闻的总数量，将A_i转为维度为[1，7236]的二维矩阵B，对所述二维矩阵B进行自动扩展，使得所述二维矩阵B与所述新闻向量矩阵A的维度相等，做矩阵减法C＝A-B；

取矩阵C的行向量C_j，j∈[i+1，M]，计算所述行向量C_j中大于0的值的和，记为差异量Pos_ij，计算所述行向量C_j中小于0的值的和的绝对值，记为差异量Neg_ij；

判断所述差异量Pos_ij和所述差异量Neg_ij是否满足所述相似阈值条件；

提取所述目标新闻和所述相似新闻之间差异的多个字符，在所述格式化主体词汇建立的索引中查找每个所述字符，如果多个所述字符能构成多于预设目标阈值的格式化主体词汇，则判定所述目标新闻与所述相似新闻不相似，否则判定所述目标新闻与所述相似新闻相似；

输出新闻相似结果。

2.如权利要求1所述的从海量短新闻中识别相似新闻的方法，其特征在于，所述获取多篇新闻，对每篇所述新闻进行向量化前，包括获取多篇新闻，对每篇所述新闻进行过滤：

获取新闻D_i，i∈[1，M]，M是新闻的总数量；

如果所述新闻D_i的第一个非空自然段中有以第一预设字段开头的句子，则去除该句子，如果所述新闻D_i的前两个非空自然段中有以第二预设字段开头的自然段，则去除该段；

将所述新闻D_i中全角的英文字母和数字字符转为半角字符，英文字母转为小写，繁体字转为简体字；

去除所述新闻D_i中所有的非汉字、英文和数字的字符。

3.如权利要求2所述的从海量短新闻中识别相似新闻的方法，其特征在于，所述对每篇所述新闻进行过滤后，还包括：

判断过滤后的所述新闻D_i的字符总数是否小于预设总数，如果小于则进行所述对每篇所述新闻进行向量化步骤，否则去除所述新闻D_i。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于数库（上海）科技有限公司，未经数库（上海）科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011093664.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种新型反应型木质素基阻燃剂及其制备方法和应用
下一篇：一种利用连杆自动切除耐磨布的复合板材加工装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]从海量短新闻中识别相似新闻的方法及相关设备有效

专利文献下载