[发明专利]一种基于语义的网络智能舆情监测系统及其工作方法有效
申请号: | 201210170862.X | 申请日: | 2012-05-29 |
公开(公告)号: | CN102708096A | 公开(公告)日: | 2012-10-03 |
发明(设计)人: | 代松;姬东鸿 | 申请(专利权)人: | 代松 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 武汉天力专利事务所 42208 | 代理人: | 吴晓颖;冯卫平 |
地址: | 430000 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 网络 智能 舆情 监测 系统 及其 工作 方法 | ||
1.一种基于语义的网络智能舆情监测系统,其特征是:该系统包括智能爬虫爬取模块、命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题抽取模块和智能统计分析模块,所述智能爬虫爬取模块用于从互联网上采集舆情信息,并存储到数据库中,所述命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块用于对舆情信息进行智能分析和加工,所述智能统计分析模块把舆情信息中经过分析处理的数据以各种形式展现给用户并提供预警。
2.如权利要求1所述的一种基于语义的网络智能舆情监测系统的工作方法,其特征在于该方法包括以下步骤:
(1)构建语义本体,用XML文档描述本体,在构建好本体以后,通过解析XML文档,将本体存储到数据库中,便于其它模块使用;具体构建步骤如下
(1-1)确定领域本体层次,将领域本体设计成层次型的结构,分为三个层次,事件层,模板层和概念层,并采用XML文档存储本体;
(1-2)定义常用的事件,每个事件都用模板来具体化;
(2)智能爬虫爬取模块从互联网上采集舆情信息,并存储到数据库中;具体步骤如下
(2-1)在数据库中定义需要采集信息的网站来源,包括新闻网站,论坛以及博客,并统一分成两类,即全国性的网站,和非全国性的网站;
(2-2)智能爬虫爬取模块在指定网站来源爬取指定时间内的网页,下载与本体中定义的事件相关的网页,过滤掉大量与要监控的舆情无关的网页;具体爬取过程如下
(2-2-1)通过本体中定义的事件对网页进行分析,以此将与要监控的事件无关的链接过滤掉,剩下与事件有关的网络链接,将这些与事件有关的链接保留下来,并把它们存入等待抓取网页的URL队列里面;
(2-2-2)完成上一步后,根据预先定义的搜索策略,从前面存入的URL队列中选出根据本搜索策略抓取的网页所对应的URL,重复过程(2-2-1),当满足了系统预设的停止条件后即所有满足条件的网站都已被标记则停止爬取过程;
(2-3)信息预处理,对步骤(2-2)中爬取的网页信息进行处理,具体处理过程如下
(2-3-1)对web文档去web标签,采用htmlparser包提供的方法;
(2-3-2)提取web文档的标题和正文;
(2-3-3)抽取web文档发表的精确的时间;
(2-3-4)web文档中有很多带链接的文字,对后续分析会产生一定的噪音,去掉文档中带链接的文字;
(2-4)如果经预处理格式化后的网页与已经采集到的网页不重复就将下载的格式化后的网页文件储存到本地,供后续步骤使用,并将本地路径存储到数据库中以便读取本地文件;下载的时候存储的格式设定的为标题,内容,日期,网址,网站名;
(3)命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块对采集到的舆情信息进行智能分析和加工;具体步骤如下
(3-A)命名实体自动抽取,自动对舆情监测的内容中包含的人物名称、地点名称和组织机构的名称即命名实体进行识别,并提取与之相关的信息;采用基于CRFs模型和规则的命名实体识别,基于CRFs的中文命名实体识别,关键在于抽取命名实体的合适特性,通过对中文命名实体的特点进行分析定义命名实体的特征,规则方法最主要利用到两种信息,命名实体用字分类和限制性成分,即分析过程中,如果扫描到具有明显特征的命名实体用字时,便开始触发命名实体抽取过程,并且采集命名实体前后相关的成分,对命名实体的前后位置进行相应的限制;
(3-B)概念智能识别,采用基于概念的识别搜索机制,通过自动识别出意义相同的概念,从采集到的舆情信息中过滤无关的信息,得到对某一概念较高准确率的搜索结果;在本体中添加一个关键词时,同时会添加该关键词的同义词,近义词以及网络特殊说法,这一系列的关键词就形成了一个宏观的概念,概念智能识别的步骤如下
(3-B-1)找到经预处理格式化后的网页文档中的关键词;种子这个概念在某种程度上是为了反应一个汉字在一个文本或者文本聚类中的显著程度,为了找到那些能够代表一个文本完整概念的较长的关键词,首先要识别关键词的一个种子,然后依次扩散获得整个关键词;识别关键词的一个种子的方法如下
假设r是参考文本集,参考文本集包括文本集合和其它的统计大文本集合,d是一个文本或者文本集合,w是文本d中的单个汉字,那么用Pr(w) 和Pd(w) 来表示w分别在r和d中出现个概率;我们用条件一,称作w在d和r中的相对概率或者叫w在d和r中的显著度来衡量w是否是一个种子;
条件一,Pd(w) / Pr(w)
如果w满足 Pd(w) / Pr(w)≥δ ,δ为50,那么就把w选作一个种子;
然后进行关键词抽取,主要采用基于种子扩散的关键词抽取算法,给出一文本d中一个关键词所应该满足的条件
条件1,一个关键词至少要包含一个种子
条件2,一个关键词在文本d中至少要出现N次, N为4
条件3,一个关键词的长度要小于L,L为16
条件4,同时满足条件1,2和3的最大字符串是一个关键词
条件5,如果有一个最大真子串,在不考虑它在所有包含它的关键词串中出现的频率的情况下,仍然同时满足条件1,2和3,那么它仍然可以算作是一个关键词;
这里所说的同时满足条件1,2和3的最大字符串指的是同时满足条件1,2和3的相邻的汉字字符串,并且,没有其他包含这个串的更长字符串同时满足条件1,2和3,一个同时满足条件1,2和3的最大真子串指的是不存在更大的真子串包含它并且同时满足这三个条件;
(3-B-2)将得到的关键词与已有的概念进行词汇相似度分析,如果相似度大于某个固定的阈值,根据实验结果经验值,这个阈值设为0.8,就将该种子加入已有的概念中,判定为意义相同的概念,如果没有相似的,就定义一个新的概念;词语相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度,在实际的应用过程中,可以利用词汇之间的距离来计算相似度,对于两个词语W1和W2,记其相似度为Sim(W1,W2),其词语距离为Dis(W1,W2),那么可以定义一个满足以上条件的简单的转换关系
其中α是一个可调节的参数,α的含义是当相似度为0.5时的词语距离值,距离越近,相似度越大;
(3-C)基于语义的倾向性分析,实现了对舆情的语义分析,并能给出基于事件的某个侧面的倾向性评价结果;情感倾向性分析作为舆情分析的核心内容,通过对海量信息进行分析和挖掘,从而得到群众对某个事件的情感倾向,可以为企业和政府提供决策支持;
所谓倾向性分析,事实上是一个分类问题,即将事件分为正面和负面两类,这里采用基于模板的倾向性分析;
(3-C-1)对于带有评价词的模板,事先添加极性,即该评价词的褒贬倾向,1表示正面,-1表示负面,并标明评价词的位置,Polarity(template) = 评价对象+情感词;
(3-C-2)当否定词和情感词结合时,句子的极性将会被逆转,因此首先建立一个否定词列表List<negative>,然后对本地文档,即经步骤(2-3)预处理格式化后的文档,用每个事件的每个模板去匹配文本,同时进行句子的倾向性分析;综合考虑模板的极性,否定词可以确定一个句子的倾向性,公式如下
Polarity(sentence)= Polarity(template) * Polarity(negative) ,其中
最后根据事件分类,得到事件的倾向性;设一个事件包含{S1,S2,…Sn}这n个句子,则事件的倾向性计算公式如下
其中sgn为符号函数;
(3-C-3)把抽取出来的事件以及其倾向性存入数据库,并统计正负面比例;
(3-D)话题自动抽取,在海量信息中搜索同一话题的内容,并自动进行归类;
(4)智能统计分析,根据用户的需求,挖掘数据库里面的结果,分时间,地域,事件对监测到的结果进行统计生成报告,同时生成可视化图表,进行预警。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于代松,未经代松许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210170862.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种白凉粉膏的加工方法
- 下一篇:一种方位伽马测量方法及设备