[发明专利]信息监测分析系统有效
申请号: | 201510258091.3 | 申请日: | 2015-05-20 |
公开(公告)号: | CN104809108B | 公开(公告)日: | 2018-10-09 |
发明(设计)人: | 张鹏 | 申请(专利权)人: | 元力云网络有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 重庆百润洪知识产权代理有限公司 50219 | 代理人: | 刘立春 |
地址: | 511363 广东省广州市黄埔区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种信息监测分析系统,包括:数据预处理模块,用于利用正面和负面情绪符号筛选网络文本,从已筛选出的网络文本中提取候选词集;语义倾向识别模块,用于对数据预处理得到的候选词集构建词汇语义趋向值网络,选择情绪集合中在候选词集中词频高于预设值的情绪符号作为候选词,并利用同义词词群对低频词进行扩展,提取情绪词;利用候选词以及语义趋向值网络计算词汇的语义倾向强度,实现词汇的语义倾向识别。本发明提出了一种信息监测分析系统,对互联网舆情进行多维监测,有效采集和分析出敏感信息,提高了查准率和查全率。 | ||
搜索关键词: | 信息 监测 分析 系统 | ||
【主权项】:
1.一种信息监测分析系统,其特征在于,包括话题采集识别单元,话题倾向分析单元,所述话题采集识别单元包括:相关性计算模块,用于将随机选择的被选待识别文本和剩余的待识别文本分别作为观测序列和状态序列,计算被选待识别文本和其余待识别文本间的相关性概率值;所述话题倾向分析单元包括:数据预处理模块,用于利用正面和负面情绪符号筛选网络文本,从已筛选出的网络文本中提取候选词集;语义倾向识别模块,用于对数据预处理得到的候选词集构建词汇语义趋向值网络,选择情绪集合中在候选词集中词频高于预设值的情绪符号作为候选词,并利用同义词词群对低频词进行扩展,提取情绪词;利用候选词以及语义趋向值网络计算词汇的语义倾向强度,实现词汇的语义倾向识别;所述数据预处理模块进一步配置为:采用词汇和词频的二元关系表示各个词汇的分词和词性标注,得到候选项集合W={w1,w2,…,wN},N为候选词总数;所述语义倾向识别模块对数据预处理得到的候选词集构建词汇语义趋向值网络,进一步包括:以词共现值表征两个词汇在二者全局邻接网络中的有序共现程度,即一个词对另一个词出现与否的激活权重,对于给定的词汇i和j,词汇i对于词汇j的词共现值wafij为:wafij=(fij/fi)·(fij/fj)/dij2式中:fi和fj分别表示两个词在文档中出现的频次;fij表示词汇i和j在设定共现窗距离内出现的频次;dij为两个词的平均共现距离,根据上述定义将文档表示为词共现值矩阵,矩阵元素wafij表示词汇i以wafij的权重激活词汇j,基于该矩阵来计算词汇间的词汇语义趋向值Aij:Aij=((1/|Kij|)OR(wafki,wafkj))1/2·((1/|Lij|)OR(wafil,wafjl))1/2式中:Kij={k|wafki>0或wafkj>0}表示词汇i和词汇j对其它词汇的共现值集合;Lij={l|wafil>0或wafjl>0}表示其它词汇对词汇i和词汇j的共现值集合;OR(x,y)=min(x,y)/max(x,y)为计算重叠率的函数;即词汇语义趋向值Aij定义为词汇i和词汇j在词共现值矩阵中所有共现值的重叠率的几何平均值;用词汇语义趋向值Aij将文档表示为语义趋向值矩阵,在词汇的语义倾向识别过程中,将词汇作为节点,各节点间的语义趋向值作为边,构建语义趋向值网络;对于敏感词识别,参照词库将每一个待识别文本用矢量空间模型表示,并进行计算得到一系列的概率值,利用这些概率值进行敏感词汇识别;将网络中的所有待识别文本采用矢量空间模型并参考词库表示为Tn={t1,w1;t2,w2;…;ti,wi};其中,特征词ti必须同时出现在待识别文本和词库中,为特征词ti的权重wi引入敏感系数βi,用信息增益来表示:βi=‑P(Cm)logP(Cm)+P(ti|Cm)logP(ti|Cm)+P(t’i|Cm)logP(t’i|Cm)其中:P(Cm)表示属于第m类敏感词汇的文本数;P(ti|Cm)表示属于第m类敏感词汇并包含特征词ti的文本数;P(t’i|Cm)表示属于第m类敏感词汇但不包含特征词ti的文本数;将y1,y2,…,yn作为敏感词汇类型特征,y={y1,y2,…,yi}是用矢量空间模型表示的一个敏感词汇的类型;x1,x2,…,xn是待识别文本的特征,x={x1,x2,…,xi}是用矢量空间模型表示的一个待识别文本;观测序列x对应参数集合Λ={λ1,…,λj}的指定状态y的条件概率为:其中:fj为特征函数,是转移特征函数和状态特征函数的统一表示;λj为通过训练得到的特征函数的权值;Z(x)为正则化系数,并且:
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于元力云网络有限公司,未经元力云网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510258091.3/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置