[发明专利]一种数据挖掘方法在审
申请号: | 201710159360.X | 申请日: | 2017-03-17 |
公开(公告)号: | CN106951408A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 刘希;夏虎;刘光辉 | 申请(专利权)人: | 国信优易数据有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京青松知识产权代理事务所(特殊普通合伙)11384 | 代理人: | 郑青松 |
地址: | 100070 北京市丰台区南*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 挖掘 方法 | ||
1.一种数据挖掘方法,其特征在于,在预定假设下对观点进行挖掘,所述预定假设包括:
(1)一个句子中的单词拥有相同的主题和情感;
(2)句子的情感划分为五类:负向,弱负向,中立,弱正向,正向,分别对应情感数值为1-5;
所述观点挖掘包括:
S1:对于给定的语料库,执行如下操作:
S101:产生单词分布φ~Dir(β),背景词:φB,全局特征词:φA,g,全局观点词:{φo,g,s},局部观点词:{φo,t,s},其中,A是特征词,B是背景词,O是观点词,s表示情感,取值{1,2,3,4,5};t=1,2,3,…T,T为文档中主题的个数;
S102:产生单词类型分布ρ~Beta(η);
S2:对于语料库中的每一篇文档d,执行如下操作:
S201:产生文档的主题分布θd~Dir(α);
S202:对文档中的每个主题z,产生情感分布πd,z~Beta(γ);
S3:对于文档d中的每个句子m,执行如下操作:
S301:从多项式分布Multinomial(θd)中选择主题zd,m;
S302:对给定的主题zd,m,从多项式分布Multinomial(πd,z)中选择情感sd,m,z;
S4:对句子m中的每个单词n,执行如下操作:
S401:基于预定假设从句子中产生每个单词wd,m,n的主题zd,m和情感sd,m,z;
S402:从关于{0,1}的二项式分布Binomial(ρ)中选择单词类型ud,m,n;
S403:从参数为xd,m,n关于{0,2}的多项式分布中选择单词类型分布yd,m,n;
S404:基于下述公式(1)产生每个单词wd,m,n:
其中,参数xd,m,n通过下述公式(2)得到:
其中,fd,m,n词wd,m,n的特征向量,λ1为fd,m,n所对应的权值,λl′是特征函数f′d,m,n所对应的权值,l的取值为{0,1,2};
S5:根据步骤S4的结果得到全局特征词、观点词和局部特征词、观点词以及背景词列表,并得到观点词对应的情感数值;
S6:建立情感云模型,用建立的情感云模型将步骤S5中得到的结果样本化,得到云模型的三个数字特征;
S7:利用情感修正算法进行修正,得到细粒度的主题-情感摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710159360.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种保护膜用便于移动的原料搅拌机
- 下一篇:一种小型移动式搅拌机
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置