[发明专利]一种网络新闻获取及文本情感预测系统在审

专利信息
申请号: 201710463295.X 申请日: 2017-06-19
公开(公告)号: CN107315797A 公开(公告)日: 2017-11-03
发明(设计)人: 黄江林;周继强;王丽峰;贠周会;吴斌 申请(专利权)人: 江西洪都航空工业集团有限责任公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27;G06K9/62
代理公司: 南昌新天下专利商标代理有限公司36115 代理人: 施秀瑾
地址: 330000 江西省*** 国省代码: 江西;36
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种网络新闻获取及文本情感预测系统,以网络爬取的新闻文本作为训练集,利用文本分类算法,建立训练模型,根据训练模型对待预测新闻文本进行分类,自动情感标注,预测待发表的网络新闻文本对公众情绪可能造成的影响,构建社会新闻对公众情感影响的文本情感预测系统,预测一个新闻可能造成的舆情,为网络安全提供便利。
搜索关键词: 一种 网络新闻 获取 文本 情感 预测 系统
【主权项】:
一种网络新闻获取及文本情感预测系统,其特征在于,以网络爬取的新闻文本作为训练集,利用文本分类算法,建立训练模型,根据训练模型对待预测新闻文本进行分类,自动情感标注,具体步骤:一)以网络爬取的新闻文本作为训练集通过爬虫海量爬取网页信息,并在爬取过程中解析新闻正文和投票数,同时根据设定的关键词对新闻正文进行预处理匹配构建语料库,在根据投票数对新闻正文进行自动情感标注,以获取满足需求的语料库并存储至本地盘;二)文本预处理对训练集中的新闻文本进行预处理,包括分词和去停用词,基于中科院ICTCLAS2015和lucence分词系统接口,以完成分词;三)特征选择及特征权重设置对预处理完毕的训练集新闻文本进行特征选择与权重设置,特征选择是除去特征集中不能较好表示有效信息的特征,以提高分类准确度和减少计算复杂度;权重设置是利用新闻文本的统计信息,给特征项赋予一定的权值;1)构建文本向量空间模型首先,将训练集的新闻文本转化为计算机可读格式,即将无结构文本转换为结构化文本,将一篇新闻文本document转换为向量,向量每一维值代表特征权重,通过特征选择构建特征词典,特征词典的词汇量为N,构建N维向量表示新闻文本,采用权重计算方法计算每一维的权重值,以构建文本向量空间模型;2)特征选择采用一元词、二元词和主题三种粒度下提取特征,特征选择提取完毕后将特征存储在HashMap中;在提取文本特征,以卡方统计量算法计算度量词与文档类别之间的相关程度,词对应某一类的卡方统计值越高,说明可能代表某一类文档,即具有的类别区分信息越多,对于多类别问题,先计算出词对于每一个类别的卡方值,然后选取其中最大的值作为词在整个语料库上的卡方值;3)特征权重设置特征权重采用TFIDF计算权重,其中 TF为词频,用于计算该词描述文档内容的能力;IDF为逆文档频率,用于计算该词区分文档的能力;四)建立训练模型通过SVM训练方法,对设置有特征权重的卡方值核函数进行非线性变换,将输入的非线性特征向量映射至高维特征空间,而后在高维特征空间中寻找最优线形分类面,以将文本类分开,建立训练模型;I)训练集向量模型自定义特征维数,根据特征选择方法提取特征,设置粒度下的权重,构建训练集向量模型;II)输入归一化因训练集向量模型原始数据可能范围过大或过小,先将训练集向量模型原始数据重新缩放到适当范围进行输入归一化;III)交叉验证参数寻优采用网格搜索,允许自定义损失函数和核函数中gamma函数的初始值、步长,使用5折交叉验证法评价在不同损失函数与gamma函数下训练模型的优劣,得到最优损失函数与核函数,以建立SVM 模型;五)预测输出将爬虫海量爬取的网页信息进行输入归一化后载入训练向量模型,使用SVM 模型对待分类文本进行预测,输出预测类标签。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西洪都航空工业集团有限责任公司,未经江西洪都航空工业集团有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710463295.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top