[发明专利]一种数据挖掘方法在审
申请号: | 201710159360.X | 申请日: | 2017-03-17 |
公开(公告)号: | CN106951408A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 刘希;夏虎;刘光辉 | 申请(专利权)人: | 国信优易数据有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京青松知识产权代理事务所(特殊普通合伙)11384 | 代理人: | 郑青松 |
地址: | 100070 北京市丰台区南*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种数据挖掘方法,包括首先对语料库中的每篇文档,产生文档‑主题分布,然后对于每个主题产生主题‑情感分布,对文档中每个句子,通过多项式分布和伯努利分布确定其主题和情感;最后,对每个句子中的单词进行全局和局部特征词及观点词的区分,同时对句子进行情感极性分析,获取全局观点词和每个主题中观点词的情感极性,并通过逆向云发生器得到对应的高斯云期望曲线,并生成基于主题的特征词‑观点词摘要。本发明的数据挖掘方法能够有效提高观点挖掘的精确度。 | ||
搜索关键词: | 一种 数据 挖掘 方法 | ||
【主权项】:
一种数据挖掘方法,其特征在于,在预定假设下对观点进行挖掘,所述预定假设包括:(1)一个句子中的单词拥有相同的主题和情感;(2)句子的情感划分为五类:负向,弱负向,中立,弱正向,正向,分别对应情感数值为1‑5;所述观点挖掘包括:S1:对于给定的语料库,执行如下操作:S101:产生单词分布φ~Dir(β),背景词:φB,全局特征词:φA,g,全局观点词:{φo,g,s},局部观点词:{φo,t,s},其中,A是特征词,B是背景词,O是观点词,s表示情感,取值{1,2,3,4,5};t=1,2,3,…T,T为文档中主题的个数;S102:产生单词类型分布ρ~Beta(η);S2:对于语料库中的每一篇文档d,执行如下操作:S201:产生文档的主题分布θd~Dir(α);S202:对文档中的每个主题z,产生情感分布πd,z~Beta(γ);S3:对于文档d中的每个句子m,执行如下操作:S301:从多项式分布Multinomial(θd)中选择主题zd,m;S302:对给定的主题zd,m,从多项式分布Multinomial(πd,z)中选择情感sd,m,z;S4:对句子m中的每个单词n,执行如下操作:S401:基于预定假设从句子中产生每个单词wd,m,n的主题zd,m和情感sd,m,z;S402:从关于{0,1}的二项式分布Binomial(ρ)中选择单词类型ud,m,n;S403:从参数为xd,m,n关于{0,2}的多项式分布中选择单词类型分布yd,m,n;S404:基于下述公式(1)产生每个单词wd,m,n:wd,m,n~Multi(φB),if(yd,m,n=0)Multi(φA,t,s),if(yd,m,n=1,ud,m,n=0)Multi(φA,g),if(yd,m,n=1,ud,m,n=1)Multi(φO,t,s),if(yd,m,n=2,ud,m,n=0)Multi(φO,g,s),if(yd,m,n=2,ud,m,n=1)---(1)]]>其中,参数xd,m,n通过下述公式(2)得到:P(yd,m,n=l|fd,m,n)=xd,m,n=exp(λ1·fd,m,n)Σ1′2exp(λ1′·fd,m,n)---(2)]]>其中,fd,m,n词wd,m,n的特征向量,λ1为fd,m,n所对应的权值,λl′是特征函数f′d,m,n所对应的权值,l的取值为{0,1,2};S5:根据步骤S4的结果得到全局特征词、观点词和局部特征词、观点词以及背景词列表,并得到观点词对应的情感数值;S6:建立情感云模型,用建立的情感云模型将步骤S5中得到的结果样本化,得到云模型的三个数字特征;S7:利用情感修正算法进行修正,得到细粒度的主题‑情感摘要。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710159360.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种保护膜用便于移动的原料搅拌机
- 下一篇:一种小型移动式搅拌机
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置