[发明专利]一种新闻特征向量的构建方法及应用在审
申请号: | 201910397143.3 | 申请日: | 2019-05-14 |
公开(公告)号: | CN112036165A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 宗璐;马晔;苏炯龙 | 申请(专利权)人: | 西交利物浦大学 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/242;G06F40/284 |
代理公司: | 南京艾普利德知识产权代理事务所(特殊普通合伙) 32297 | 代理人: | 陆明耀 |
地址: | 215121 江苏省苏州市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 特征向量 构建 方法 应用 | ||
1.一种新闻特征向量的构建方法,其特征在于:包括如下步骤,
S1、获取新闻文本,组成训练集,提取每个新闻文本的标题为新闻节点;
S2、提取所述新闻节点中的关键词节点,并形成上下文关系网络;
S3、根据边的权重,采用node2vec图嵌入模型偏差随即游走,依次以每一个新闻节点为起点游走,下一个新闻节点即从与其相连的关键词节点中根据转移概率随机选择,转移概率分布等于该新闻节点的所有边的归一化结果,游走固定长度后形成序列;
S4、重构新闻节点,区分序列中关键词节点和新闻节点,移除各个序列中的关键词节点,将新闻节点改写成新闻特征的集合,并训练得到的是每个新闻特征的向量,这些低维度的向量相加即为一个新闻文本的向量;
S5、将新闻特征向量集合及对应的序列保存,得到向量字典。
2.根据权利要求1所述的方法,其特征在于:所述S2中“提取所述新闻节点中的关键词节点,并形成上下文关系网络”具体包括:
S21、利用自然语言处理工具对每个新闻节点根据词性抽取实体和动作,所述实体和动作统称为关键词节点;
S22、利用抽取出的实体和动作连接成新闻数据集:每个新闻节点仅与关键词节点相连,关键词节点相互之间不直接相连,新闻节点相互之间不直接相连;
S23、通过tf-idf测量新闻节点和关键词节点间的边的权重,形成带有权重的新闻数据集网络,即为所述上下文关系网络。
3.根据权利要求2所述的方法,其特征在于:所述tf-idf的定义为:
其中ni,j表示在第j个文本中第i个单词的个数,∑knk,j则表示在第j个本文中单词的总个数,两者相除即为词频(tf),|D|是文本的总个数,|{j:ti∈dj}|则为包含第i个单词的文本总个数,两者相除即为逆向文件频率(idf)。
4.根据权利要求3所述的方法,其特征在于:基于tf-idf测量新闻节点和关键词节点间的边的权重的步骤包括,采用如下公式计算
其中,ve代表新闻节点,vk代表关键词节点,(ve,vk)代表两者的边,边的权重等于该关键词在标题中的tf-idf归一化结果加上在正文中的tf-idf归一化后的值。
5.根据权利要求1所述的方法,其特征在于:所述S3中,以关键词节点代替新闻节点作为起点游走,下一个关键词节点即从与其相连的新闻节点中根据转移概率随机选择,转移概率分布等于该关键词节点的所有边的归一化结果,游走固定长度后形成序列。
6.根据权利要求1所述的方法,其特征在于:所述S3中,基于神经网络的skip-gram模型,通过目标方程
结合负采样的随机梯度下降,预测相邻节点的概率最大化,其中为新闻特征向量,ve∈V为新闻节点,N(ve)为相邻节点,G为新闻特征集合。
7.根据权利要求1所述的方法,其特征在于:所述S4中,所述新闻特征集合包括实体、动作语义特征,词数、段落数文本结构特征,及日期、文本种类、情绪文本侧面信息特征。
8.一种新闻特征向量的应用,其特征在于:用skip-gram词向量训练模型进行训练,将每一个新闻特征向量对应一个向量字典中的初始化的向量,训练时需先找到该集合内的所有特征的向量,并把它们相加得到该集合的向量,然后再将集合的向量输入神经网络进行训练,最后可以得到每个新闻特征的向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西交利物浦大学,未经西交利物浦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910397143.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种轴向后端配置控制装置的驱动总成和交通工具
- 下一篇:用于护肤的试剂组合