[发明专利]一种舆情事件检测方法及装置有效
申请号: | 201610197073.3 | 申请日: | 2016-03-31 |
公开(公告)号: | CN107193796B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 蔡慧慧;刘克松;张丹;于晓明;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/958 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 舆情 事件 检测 方法 装置 | ||
1.一种舆情事件检测方法,其特征在于,包括:
获取待检测文本的特征词向量,所述特征词向量的元素表示待检测文本中对应的特征词是否出现;
从语义知识库中获取所有特征词对应的向量,所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量;并从敏感词库获取敏感义项向量,所述敏感义项向量表示当前特征词对应的向量中的义项为预设的特征词敏感义项;且所述敏感词库是基于所述语义知识库和预设特征词的敏感义项建立的;其中,所述语义知识库所有特征词中的敏感特征词对应的向量均具有歧义标注;
计算待检测文本的特征词向量和所有特征词对应的特征词向量的总体相似度,其中,所述所有特征词对应的特征词向量包括从敏感词库获取的所有敏感义项向量;且所述计算待检测文本的特征词向量和所有特征词对应的特征词向量的总体相似度具体包括:计算多个特征词向量之间相似度以及计算各特征词与背景文本向量的相似度的和,以作为所述总体相似度;
其中,所述总体相似度函数f(wi)的相关计算公式如下:
max f(wi)
f(wi)=f(wi+1)+Sim(wi,wi+1)+Sim(wi,doci)
s.t.
wi∈{v1,v2…,vm}
doci=(w1,w2,…,wn),wi=0
其中,wi表示待检测文木中的特征词向量,v1,v2……是待检测文木中各分词分别对应的特征词向量,若该词为非歧义词,则有一个向量表示,反之,有多个向量表示;f(wi)表示所述计算待检测文本的特征词向量和所有特征词对应的特征词向量的总体相似度;Sim(wi,wi+1)表示两两相邻特征词向量之间相似度;Sim(wi,doci)表示各特征词与背景文本向量的相似度;其中,doci是背景文本向量,为对待检测文本去除敏感特征词后的背景文本进行的向量表示,即将是否包含敏感义项相应位置的元素置为0时背景文本的向量表示;
获取待检测文本特征体总体相似度函数取最大值时待检测文本的特征词向量对应的第一敏感义项,包括:通过最优化方法,并基于语义知识库中的歧义标注,获取总体相似度函数取最大值时待检测文本的特征词向量对应的第一敏感义项,以确定歧义词在文本中的准确含义;
对待检测文本中的多个敏感特征词,均重复执行上述各步骤以分别获得其对应的第一敏感义项;根据获得的第一敏感义项,并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量,根据第一预设权值和第二预设权值,计算所述第一敏感义项的数量和所述特征词的数量的加权和,当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测文本的特征词向量之前包括:
根据网页内容构建所述语义知识库。
3.根据权利要求2所述的方法,其特征在于,所述网页内容存储在xml格式文件中。
4.根据权利要求3所述的方法,其特征在于,所述网页内容为维基百科。
5.根据权利要求4所述的方法,其特征在于,所述根据网页内容构建所述语义知识库之后包括:
根据所述语义知识库和预设的特征词敏感义项建立敏感词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610197073.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于内容的即时通信新消息通知方法
- 下一篇:信息处理方法及装置