[发明专利]一种数据挖掘方法在审

申请号：	201710159360.X	申请日：	2017-03-17
公开（公告）号：	CN106951408A	公开（公告）日：	2017-07-14
发明（设计）人：	刘希;夏虎;刘光辉	申请（专利权）人：	国信优易数据有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	北京青松知识产权代理事务所(特殊普通合伙)11384	代理人：	郑青松
地址：	100070 北京市丰台区南***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种数据挖掘方法，其特征在于，在预定假设下对观点进行挖掘，所述预定假设包括：

(1)一个句子中的单词拥有相同的主题和情感；

(2)句子的情感划分为五类：负向，弱负向，中立，弱正向，正向，分别对应情感数值为1-5；

所述观点挖掘包括：

S1：对于给定的语料库，执行如下操作：

S101：产生单词分布φ～Dir(β)，背景词：φ^B，全局特征词：φ^A,g，全局观点词：{φ^o,g,s}，局部观点词：{φ^o,t,s}，其中，A是特征词，B是背景词，O是观点词，s表示情感，取值{1,2,3,4,5}；t＝1,2,3，…T，T为文档中主题的个数；

S102：产生单词类型分布ρ～Beta(η)；

S2：对于语料库中的每一篇文档d，执行如下操作：

S201：产生文档的主题分布θ^d～Dir(α)；

S202：对文档中的每个主题z，产生情感分布π^d,z～Beta(γ)；

S3：对于文档d中的每个句子m，执行如下操作：

S301：从多项式分布Multinomial(θ^d)中选择主题z_d,m；

S302：对给定的主题z_d,m，从多项式分布Multinomial(π^d,z)中选择情感s_d,m,z；

S4：对句子m中的每个单词n，执行如下操作：

S401：基于预定假设从句子中产生每个单词w_d,m,n的主题z_d,m和情感s_d,m,z；

S402：从关于{0,1}的二项式分布Binomial(ρ)中选择单词类型u_d,m,n；

S403：从参数为x^d,m,n关于{0，2}的多项式分布中选择单词类型分布y_d,m,n；

S404：基于下述公式(1)产生每个单词w_d,m,n：

$<mrow><msub><mi>w</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>~</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mi>M</mi><mi>u</mi><mi>l</mi><mi>t</mi><mi>i</mi><mrow><mo>(</mo><msup><mi>φ</mi><mi>B</mi></msup><mo>)</mo></mrow><mo>,</mo><mi>i</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>y</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>0</mn><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>M</mi><mi>u</mi><mi>l</mi><mi>t</mi><mi>i</mi><mrow><mo>(</mo><msup><mi>φ</mi><mrow><mi>A</mi><mo>,</mo><mi>t</mi><mo>,</mo><mi>s</mi></mrow></msup><mo>)</mo></mrow><mo>,</mo><mi>i</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>y</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>1</mn><mo>,</mo><msub><mi>u</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>0</mn><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>M</mi><mi>u</mi><mi>l</mi><mi>t</mi><mi>i</mi><mrow><mo>(</mo><msup><mi>φ</mi><mrow><mi>A</mi><mo>,</mo><mi>g</mi></mrow></msup><mo>)</mo></mrow><mo>,</mo><mi>i</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>y</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>1</mn><mo>,</mo><msub><mi>u</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>M</mi><mi>u</mi><mi>l</mi><mi>t</mi><mi>i</mi><mrow><mo>(</mo><msup><mi>φ</mi><mrow><mi>O</mi><mo>,</mo><mi>t</mi><mo>,</mo><mi>s</mi></mrow></msup><mo>)</mo></mrow><mo>,</mo><mi>i</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>y</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>2</mn><mo>,</mo><msub><mi>u</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>0</mn><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>M</mi><mi>u</mi><mi>l</mi><mi>t</mi><mi>i</mi><mrow><mo>(</mo><msup><mi>φ</mi><mrow><mi>O</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>s</mi></mrow></msup><mo>)</mo></mrow><mo>,</mo><mi>i</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>y</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>2</mn><mo>,</mo><msub><mi>u</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>$

其中，参数x^d,m,n通过下述公式(2)得到：

$<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>y</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>=</mo><mi>l</mi><mo>|</mo><msub><mi>f</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>)</mo></mrow><mo>=</mo><msup><mi>x</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msup><mo>=</mo><mfrac><mrow><mi>exp</mi><mrow><mo>(</mo><msub><mi>λ</mi><mn>1</mn></msub><mo>·</mo><msub><mi>f</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>)</mo></mrow></mrow><mrow><msubsup><mi>Σ</mi><msup><mn>1</mn><mo>′</mo></msup><mn>2</mn></msubsup><mi>exp</mi><mrow><mo>(</mo><msub><mi>λ</mi><msup><mn>1</mn><mo>′</mo></msup></msub><mo>·</mo><msub><mi>f</mi><mrow><mi>d</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>$

其中，f_d,m,n词w_d,m,n的特征向量，λ₁为f_d,m,n所对应的权值，λ_l′是特征函数f′_d,m,n所对应的权值，l的取值为{0,1,2}；

S5：根据步骤S4的结果得到全局特征词、观点词和局部特征词、观点词以及背景词列表，并得到观点词对应的情感数值；

S6：建立情感云模型，用建立的情感云模型将步骤S5中得到的结果样本化，得到云模型的三个数字特征；

S7：利用情感修正算法进行修正，得到细粒度的主题-情感摘要。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司，未经国信优易数据有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710159360.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种数据挖掘方法在审

专利文献下载