[发明专利]一种数据挖掘方法在审

专利信息
申请号: 201710159360.X 申请日: 2017-03-17
公开(公告)号: CN106951408A 公开(公告)日: 2017-07-14
发明(设计)人: 刘希;夏虎;刘光辉 申请(专利权)人: 国信优易数据有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 北京青松知识产权代理事务所(特殊普通合伙)11384 代理人: 郑青松
地址: 100070 北京市丰台区南*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种数据挖掘方法,包括首先对语料库中的每篇文档,产生文档‑主题分布,然后对于每个主题产生主题‑情感分布,对文档中每个句子,通过多项式分布和伯努利分布确定其主题和情感;最后,对每个句子中的单词进行全局和局部特征词及观点词的区分,同时对句子进行情感极性分析,获取全局观点词和每个主题中观点词的情感极性,并通过逆向云发生器得到对应的高斯云期望曲线,并生成基于主题的特征词‑观点词摘要。本发明的数据挖掘方法能够有效提高观点挖掘的精确度。
搜索关键词: 一种 数据 挖掘 方法
【主权项】:
一种数据挖掘方法,其特征在于,在预定假设下对观点进行挖掘,所述预定假设包括:(1)一个句子中的单词拥有相同的主题和情感;(2)句子的情感划分为五类:负向,弱负向,中立,弱正向,正向,分别对应情感数值为1‑5;所述观点挖掘包括:S1:对于给定的语料库,执行如下操作:S101:产生单词分布φ~Dir(β),背景词:φB,全局特征词:φA,g,全局观点词:{φo,g,s},局部观点词:{φo,t,s},其中,A是特征词,B是背景词,O是观点词,s表示情感,取值{1,2,3,4,5};t=1,2,3,…T,T为文档中主题的个数;S102:产生单词类型分布ρ~Beta(η);S2:对于语料库中的每一篇文档d,执行如下操作:S201:产生文档的主题分布θd~Dir(α);S202:对文档中的每个主题z,产生情感分布πd,z~Beta(γ);S3:对于文档d中的每个句子m,执行如下操作:S301:从多项式分布Multinomial(θd)中选择主题zd,m;S302:对给定的主题zd,m,从多项式分布Multinomial(πd,z)中选择情感sd,m,z;S4:对句子m中的每个单词n,执行如下操作:S401:基于预定假设从句子中产生每个单词wd,m,n的主题zd,m和情感sd,m,z;S402:从关于{0,1}的二项式分布Binomial(ρ)中选择单词类型ud,m,n;S403:从参数为xd,m,n关于{0,2}的多项式分布中选择单词类型分布yd,m,n;S404:基于下述公式(1)产生每个单词wd,m,n:wd,m,n~Multi(φB),if(yd,m,n=0)Multi(φA,t,s),if(yd,m,n=1,ud,m,n=0)Multi(φA,g),if(yd,m,n=1,ud,m,n=1)Multi(φO,t,s),if(yd,m,n=2,ud,m,n=0)Multi(φO,g,s),if(yd,m,n=2,ud,m,n=1)---(1)]]>其中,参数xd,m,n通过下述公式(2)得到:P(yd,m,n=l|fd,m,n)=xd,m,n=exp(λ1·fd,m,n)Σ1′2exp(λ1′·fd,m,n)---(2)]]>其中,fd,m,n词wd,m,n的特征向量,λ1为fd,m,n所对应的权值,λl′是特征函数f′d,m,n所对应的权值,l的取值为{0,1,2};S5:根据步骤S4的结果得到全局特征词、观点词和局部特征词、观点词以及背景词列表,并得到观点词对应的情感数值;S6:建立情感云模型,用建立的情感云模型将步骤S5中得到的结果样本化,得到云模型的三个数字特征;S7:利用情感修正算法进行修正,得到细粒度的主题‑情感摘要。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710159360.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top