[发明专利]一种数据挖掘方法在审

专利信息
申请号: 201710159360.X 申请日: 2017-03-17
公开(公告)号: CN106951408A 公开(公告)日: 2017-07-14
发明(设计)人: 刘希;夏虎;刘光辉 申请(专利权)人: 国信优易数据有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 北京青松知识产权代理事务所(特殊普通合伙)11384 代理人: 郑青松
地址: 100070 北京市丰台区南*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 挖掘 方法
【权利要求书】:

1.一种数据挖掘方法,其特征在于,在预定假设下对观点进行挖掘,所述预定假设包括:

(1)一个句子中的单词拥有相同的主题和情感;

(2)句子的情感划分为五类:负向,弱负向,中立,弱正向,正向,分别对应情感数值为1-5;

所述观点挖掘包括:

S1:对于给定的语料库,执行如下操作:

S101:产生单词分布φ~Dir(β),背景词:φB,全局特征词:φA,g,全局观点词:{φo,g,s},局部观点词:{φo,t,s},其中,A是特征词,B是背景词,O是观点词,s表示情感,取值{1,2,3,4,5};t=1,2,3,…T,T为文档中主题的个数;

S102:产生单词类型分布ρ~Beta(η);

S2:对于语料库中的每一篇文档d,执行如下操作:

S201:产生文档的主题分布θd~Dir(α);

S202:对文档中的每个主题z,产生情感分布πd,z~Beta(γ);

S3:对于文档d中的每个句子m,执行如下操作:

S301:从多项式分布Multinomial(θd)中选择主题zd,m

S302:对给定的主题zd,m,从多项式分布Multinomial(πd,z)中选择情感sd,m,z

S4:对句子m中的每个单词n,执行如下操作:

S401:基于预定假设从句子中产生每个单词wd,m,n的主题zd,m和情感sd,m,z

S402:从关于{0,1}的二项式分布Binomial(ρ)中选择单词类型ud,m,n

S403:从参数为xd,m,n关于{0,2}的多项式分布中选择单词类型分布yd,m,n

S404:基于下述公式(1)产生每个单词wd,m,n

<mrow><msub><mi>w</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>~</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mi>M</mi><mi>u</mi><mi>l</mi><mi>t</mi><mi>i</mi><mrow><mo>(</mo><msup><mi>&phi;</mi><mi>B</mi></msup><mo>)</mo></mrow><mo>,</mo><mi>i</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>y</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>0</mn><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>M</mi><mi>u</mi><mi>l</mi><mi>t</mi><mi>i</mi><mrow><mo>(</mo><msup><mi>&phi;</mi><mrow><mi>A</mi><mo>,</mo><mi>t</mi><mo>,</mo><mi>s</mi></mrow></msup><mo>)</mo></mrow><mo>,</mo><mi>i</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>y</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>1</mn><mo>,</mo><msub><mi>u</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>0</mn><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>M</mi><mi>u</mi><mi>l</mi><mi>t</mi><mi>i</mi><mrow><mo>(</mo><msup><mi>&phi;</mi><mrow><mi>A</mi><mo>,</mo><mi>g</mi></mrow></msup><mo>)</mo></mrow><mo>,</mo><mi>i</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>y</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>1</mn><mo>,</mo><msub><mi>u</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>M</mi><mi>u</mi><mi>l</mi><mi>t</mi><mi>i</mi><mrow><mo>(</mo><msup><mi>&phi;</mi><mrow><mi>O</mi><mo>,</mo><mi>t</mi><mo>,</mo><mi>s</mi></mrow></msup><mo>)</mo></mrow><mo>,</mo><mi>i</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>y</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>2</mn><mo>,</mo><msub><mi>u</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>0</mn><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>M</mi><mi>u</mi><mi>l</mi><mi>t</mi><mi>i</mi><mrow><mo>(</mo><msup><mi>&phi;</mi><mrow><mi>O</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>s</mi></mrow></msup><mo>)</mo></mrow><mo>,</mo><mi>i</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>y</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>2</mn><mo>,</mo><msub><mi>u</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>

其中,参数xd,m,n通过下述公式(2)得到:

<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>y</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mi>l</mi><mo>|</mo><msub><mi>f</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>)</mo></mrow><mo>=</mo><msup><mi>x</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msup><mo>=</mo><mfrac><mrow><mi>exp</mi><mrow><mo>(</mo><msub><mi>&lambda;</mi><mn>1</mn></msub><mo>&CenterDot;</mo><msub><mi>f</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>)</mo></mrow></mrow><mrow><msubsup><mi>&Sigma;</mi><msup><mn>1</mn><mo>&prime;</mo></msup><mn>2</mn></msubsup><mi>exp</mi><mrow><mo>(</mo><msub><mi>&lambda;</mi><msup><mn>1</mn><mo>&prime;</mo></msup></msub><mo>&CenterDot;</mo><msub><mi>f</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>

其中,fd,m,n词wd,m,n的特征向量,λ1为fd,m,n所对应的权值,λl′是特征函数f′d,m,n所对应的权值,l的取值为{0,1,2};

S5:根据步骤S4的结果得到全局特征词、观点词和局部特征词、观点词以及背景词列表,并得到观点词对应的情感数值;

S6:建立情感云模型,用建立的情感云模型将步骤S5中得到的结果样本化,得到云模型的三个数字特征;

S7:利用情感修正算法进行修正,得到细粒度的主题-情感摘要。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710159360.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top