[发明专利]一种新闻特征向量的构建方法及应用在审

专利信息
申请号: 201910397143.3 申请日: 2019-05-14
公开(公告)号: CN112036165A 公开(公告)日: 2020-12-04
发明(设计)人: 宗璐;马晔;苏炯龙 申请(专利权)人: 西交利物浦大学
主分类号: G06F40/258 分类号: G06F40/258;G06F40/242;G06F40/284
代理公司: 南京艾普利德知识产权代理事务所(特殊普通合伙) 32297 代理人: 陆明耀
地址: 215121 江苏省苏州市*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 新闻 特征向量 构建 方法 应用
【说明书】:

发明揭示了一种新闻特征向量的构建方法及应用,根据上下文关系网络中边的权重,采用node2vec图嵌入模型偏差随即游走形成序列,将新闻特征向量集合及对应的序列保存,得到向量字典。本发明的有益效果主要体现在:提出了一个全新的训练新闻特征向量的方法,提出了一个全新的subnode模型使network embedding有了计算不在训练集中的新闻的能力。本发明训练出的新闻特征向量不仅可以表示语义特征,还可以融入新闻种类,时间,情绪,文本结构等种种特征。

技术领域

本发明属于计算机技术领域,具体涉及一种新闻特征向量的构建方法及应用。

背景技术

新闻,承载了大量的信息,往往可以引导舆论,影响人的行为以及事件的发展。这一点在股票市场上表现的十分明显,一篇利好的新闻往往可以促使该支股票的价格上扬。然而在信息时代,新闻已然成了一个大体量,高更新频率的大数据;同时,新闻作为文本数据,是非结构化的,不好直接用于种种数学模型。

现有技术中,一般利用词袋模型将文本和时间表示成向量。这个方法形成的向量过于稀疏,长度过长,不利于进行后续的计算。也有研究者采用skip-gram词向量模型有效地训练了单词的表征,该方式利用神经网络和词之间的共生关系将单词压缩至一个低纬度的连续向量中。还有一种文本向量的训练方式,该方式通过训练文本向量来预测文本中的单词,其最终目的不是预测,而是得到训练后的文本向量;作者(LeMikolov,2014)提出了两个模型,一是考虑了词序,基于连续词袋模型的PV-DBOW模型,二是没有考虑词序,但是结合了skip-gram的PV-DM模型,作者将这两种模型训练出的向量相连接,并在文本分类上取得了不错的效果。作者(Li,etal.,2016)对这个方法做了改进,不再用文本向量预测单个单词,而是预测两个或三个连续的单词构成的词组,同时利用贝叶斯算法计算出每个单词的重要性,筛选出重要的单词构成单词组。改进后的文本向量在分类任务上获得了显著的提升。然而单词的向量是可以共享的,文本的向量却是唯一的,也就是说单词的总量是有限的,然而文本的数量是无上限的,因为很难找到完全一样的文本。因此,如果想获得更新的新闻的向量,则需要加入原先的数据集重新训练,对于新闻这一高更新频率的文本数据而言,太过于浪费时间。

解决这个问题的最直接方法就是将文本向量看成词向量的集合,作者(Das,etal.,n.d.)利用这一方法构成的句向量完成了检测时间的任务。现有的文本嵌入方法考虑的多为文本内部信息,即单词之间的上下文关系,句子之间连贯性以及文本和单词的从属关系。但是新闻作为一种特殊的文本,往往描述了几个事件,且事件之间往往会有关联,有些甚至可以通过链式反应而间接相连,因此,这样得到的新闻特征向量是片面的,不准确的。

发明内容

本发明的目的是克服现有技术存在的不足,提供一种快速将作为文本数据的新闻特征转化成低维度的连续向量的方法,在network embedding的基础上加入了subnode模型,可以快速计算不在训练集中的新闻特征向量,并且该方法训练出的向量可以同时包含新闻的任何信息,包括语义,时间,种类,情感,文本结构等等。

本发明的目的通过以下技术方案来实现:

一种新闻特征向量的构建方法,包括如下步骤,

S1、获取新闻文本,组成训练集,提取每个新闻文本的标题为新闻节点;

S2、提取所述新闻节点中的关键词节点,并形成上下文关系网络;

S3、根据边的权重,采用node2vec图嵌入模型偏差随即游走,依次以每一个新闻节点为起点游走,下一个新闻节点即从与其相连的关键词节点中根据转移概率随机选择,转移概率分布等于该新闻节点的所有边的归一化结果,游走固定长度后形成序列;

S4、重构新闻节点,区分序列中关键词节点和新闻节点,移除各个序列中的关键词节点,将新闻节点改写成新闻特征的集合,并训练得到的是每个新闻特征的向量,这些低维度的向量相加即为一个新闻文本的向量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西交利物浦大学,未经西交利物浦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910397143.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top