[发明专利]新闻事件信息归纳方法有效
申请号: | 201910207437.5 | 申请日: | 2019-03-19 |
公开(公告)号: | CN109960756B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 张旭;刘春阳;石瑾;张翔宇;李建欣;闫昊;邰振赢 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;北京航空航天大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/34;G06F16/35;G06F40/211 |
代理公司: | 北京远大卓悦知识产权代理有限公司 11369 | 代理人: | 史霞 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻 事件 信息 归纳 方法 | ||
1.新闻事件信息归纳方法,其特征在于,包括:
收集新闻素材,创建新闻库;
从新闻库中获取目标事件的所有新闻文本,并进行热度分析,获取拐点新闻文本,抽取所述拐点新闻文本中的事件信息并保存;
其中,获取拐点新闻文本的方法包括:统计所有新闻文本的热度值,按照新闻文本发布的时间顺序排序,构建热度值随时间变化的曲线图,取曲线图的所有极大点对应的新闻文本,即为所述拐点新闻文本,所述热度值为新闻的页面浏览量和网站独立访客量之和;
从拐点新闻文本中抽取事件摘要,按照新闻文本发布的时间顺序排序并保存,即构成所述事件信息;
其中,所述事件摘要的抽取方法包括:
将所述拐点新闻文本进行分句处理,构建拐点新闻文本中所有句子之间的连通图;
应用文本摘要算法对连通图进行分析,获得每个句子的权重,将所有的句子依照权重大小进行排序,然后按照权重的排序从大到小选取预设数量的句子组合后保存为事件摘要;
其中,连通图的公式为:G=(V,E),连通图的构建方法为:将拐点新闻文本中每个句子都作为一个句子顶点,统计所有的句子顶点构成顶点集合V,如果一个句子与其他句子之间存在关系则形成边,统计所有的边构成边集合E;
所述事件信息还包括专业观点,所述专业观点的获取方法为:
创建观点库;
从收集的新闻素材中抽取观点素材存入观点库中;
从观点库中获取目标事件的所有观点文本;
对获取的所有观点文本进行聚类,得到观点簇集合,利用文本摘要算法分别提取每个观点簇的概要描述;
将每个观点簇中的观点文本与其相对应的概要描述保存在一起,即得所述专业观点;
所述观点文本包括:评论主体、以及评述观点;
其中,评论主体包括机构与专家中的至少一项,当所述专家项目存在时,所述观点文本还包括与所述专家条目对应的职位信息;
所述观点文本的获取方法包括:
建立观点表达动词库;
将收集的新闻素材依次进行分句、分词和词性标注处理,得到标记语句;
将标记语句与观点表达动词库进行对比,判断标记语句中是否包含观点表达动词,如果标记语句中包含观点表达动词,将观点表达动词之后的内容作为评述观点,然后从标记语句的主语中抽取人名作为专家,抽取人名前的名词作为专家的职位,如果标记语句的主语不包含人名,则抽取机构实体作为机构;
保存抽取的专家、机构、职位以及评述观点,即得所述观点文本;
对获取的所有观点文本进行聚类包括:
将获取的所有观点文本用向量表示,构成观点文本向量库;
对于观点簇的数量预设一个范围,范围内的每个数值对应一个观点簇集合;
利用高斯混合模型按照预设范围的数值将观点文本向量库分为多个观点簇集合;
在高斯混合模型下计算每个观点簇集合的轮廓系数,选取轮廓系数最大的观点簇集合为最终的聚类结果;
其中,轮廓系数的公式为:
a(i)表示对象i到簇内其它对象的欧式距离的平均值,b(i)表示对象i到其他簇对象的平均欧式距离的最小值,对象指的是观点文本向量;
其中,将获取的所有观点文本用向量表示的方法包括:
将观点文本的评述观点进行分词处理,得到观点词语的集合,计算每个观点词语的TF-IDF值;
对集合中的观点词语按照TF-IDF值进行大小排序,按照TF-IDF值从大到小的顺序选取预设数目的词语;
对所选取的词语的词向量求平均值,将词向量的平均值作为所述观点文本的向量表示;
所述新闻库、观点库的创建还包括:
利用爬虫技术收集新闻素材,将收集到的新闻素材、观点素材分别存入所述新闻库、观点库后,新闻库、观点库存储在分布式索引数据库中;
所述文本摘要算法为Text rank算法,所述Text rank的计算公式为:
WS是句子的权重,d是阻尼系数,一般设置为0.85,In(Vi)是指存在与句子i有关的句子集合,Out(Vj)是指存在与句子j有关的句子的集合,|Out(Vj)|是集合中元素的个数;
所述事件信息还包括网友评论,所述网友评论包括评论要点、情感与地域分布,所述网友评论的获取方法包括:
从新闻库中获取目标事件的所有新闻文本,从目标新闻文本中抽取评论信息,保存为评论文本;
对评论文本进行聚类分析,获得评论簇,对于评论簇中的评论进行句法依存分析,统计评论簇中的评论语句中的主谓短语和动宾短语在其所属评论簇中出现的频率,将频率最高的短语作为对评论簇的归纳,形成评论要点;
利用文本分类模型训练评论网友的情感分类模型,计算出网友评论文本中的情感倾向,并统计与所述情感倾向对应的地域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京航空航天大学,未经国家计算机网络与信息安全管理中心;北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910207437.5/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置