[发明专利]基于领域信息的半监督方面自动提取方法及其系统有效

专利信息
申请号: 201410114328.6 申请日: 2014-03-25
公开(公告)号: CN103903164B 公开(公告)日: 2017-06-06
发明(设计)人: 蔡毅;王涛;梁浩锋;闵华清 申请(专利权)人: 华南理工大学
主分类号: G06Q30/02 分类号: G06Q30/02;G06F17/30
代理公司: 广州市华学知识产权代理有限公司44245 代理人: 蔡茂略
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 领域 信息 监督 方面 自动 提取 方法 及其 系统
【权利要求书】:

1.基于领域信息的半监督方面自动提取方法,其特征在于,包括:

网络信息爬取,从电子商务网站上爬取消费者对于关注商品的评论,以及电子商务网站中对于商品半结构化的商品细节描述信息;

信息预处理,将爬取到的评论进行分词、词性标注和去除停顿词处理,并提取评论中的特征单词;

关键词提取,从电子商务网站中半结构化的商品细节描述信息中提取每个方面类别的关键词作为半监督主题模型的种子词集,获取由电商网站中的专业领域定义的或符合人们认知习惯的商品方面分类作为半监督方法的先验知识;

评论文档重组,将评论中各个句子利用提取的所述关键词进行标记,然后将含有相同关键词的句子重新组合成新的文档,得到学习文档;

细粒度的标记LDA学习,通过半监督的LDA主题模型识别评论中的产品特征,将所述的产品特征的属于同一方面的特征进行归类;所述半监督的LDA主题模型是通过加入方面-词的约束关系来监督模型生成分类,并获得顺序与种子词集中定义相一致的商品方面集;所述的方面-词的约束关系是指在评论中,关键词具有特定的方面倾向;

其中,所述方面类别ci中的第j个细节描述短语pi,j中的关键词wt的定义为以下三种定义中的任意一种定义:

第一种定义:

第二种定义:

第三种定义:

式中,TFIDFm,i表示单词wm在ci中的TFIDF值,TFt,i表示单词wt在ci中的词频;

所述的细粒度的标记LDA学习包括以下步骤:

(5a)利用种子词集初始化词-主题相关性变量相关性变量的设置表达式如下:

<mrow><msubsup><mi>&rho;</mi><mi>k</mi><mi>w</mi></msubsup><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mi>&lambda;</mi><mrow><mo>(</mo><mn>1</mn><mo>+</mo><msubsup><mi>&epsiv;</mi><mi>k</mi><mi>w</mi></msubsup><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>&lambda;</mi><mo>)</mo></mrow><mo>,</mo></mrow></mtd><mtd><mrow><msubsup><mi>&gamma;</mi><mi>k</mi><mi>w</mi></msubsup><mo>=</mo><mn>1</mn><mo>,</mo></mrow></mtd></mtr><mtr><mtd><mrow><mn>1</mn><mo>,</mo></mrow></mtd><mtd><mrow><msubsup><mi>&gamma;</mi><mi>k</mi><mi>w</mi></msubsup><mo>=</mo><mn>0</mn><mo>,</mo></mrow></mtd></mtr></mtable></mfenced></mrow>

其中,表示单词w在种子方面集sk的词频,λ是松弛因子,所述松弛因子用于控制的影响强度,表示单词w是否属于种子方面集sk的指示函数,如果单词w属于种子方面集sk,则为1,否则为0,所述指示函数的定义如下:

式中,sk表示种子方面集;

(5b)初始化狄利克雷先验概率参数:对于文档d的文档-方面狄利克雷先验参数αd

<mrow><msub><mi>&alpha;</mi><mi>d</mi></msub><mo>=</mo><mi>&alpha;</mi><mo>&times;</mo><msup><mi>&gamma;</mi><msub><mi>l</mi><mi>d</mi></msub></msup><mo>,</mo></mrow>

其中,α=(α1,…,αK),αi=50/K+Δi,K是种子方面的个数,Δi是[0,5]之间的随机数,对于种子词的方面–词的狄利克雷先验参数βs=0.5;对于普通词的方面-词的狄利克雷先验参数βg=0.1;

(5c)初始化后验概率随机初始化单词在方面变量上的分布Z;

(5d)采用吉布斯采样方法估计概率P(w,z|α,β,γ)的值,所述概率P(w,z|α,β,γ)的计算公式如下:

<mrow><mi>P</mi><mrow><mo>(</mo><mi>w</mi><mo>,</mo><mi>z</mi><mo>|</mo><mi>&alpha;</mi><mo>,</mo><mi>&beta;</mi><mo>,</mo><mi>&gamma;</mi><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><msubsup><mi>&rho;</mi><mi>k</mi><msub><mi>w</mi><mi>i</mi></msub></msubsup><mfrac><mrow><msubsup><mi>n</mi><mrow><mo>-</mo><mi>i</mi><mo>,</mo><mi>k</mi></mrow><msub><mi>w</mi><mi>i</mi></msub></msubsup><mo>+</mo><msup><mi>&beta;</mi><mi>s</mi></msup></mrow><mrow><msubsup><mi>n</mi><mrow><mo>-</mo><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mo>.</mo><mo>)</mo></mrow></msubsup><mo>+</mo><msup><mi>V&beta;</mi><mi>s</mi></msup></mrow></mfrac><mfrac><mrow><msubsup><mi>n</mi><mrow><mo>-</mo><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mi>d</mi></msubsup><mo>+</mo><msub><mi>&alpha;</mi><mi>d</mi></msub></mrow><mrow><msubsup><mi>n</mi><mrow><mo>-</mo><mi>i</mi><mrow><mo>(</mo><mo>.</mo><mo>)</mo></mrow></mrow><mi>d</mi></msubsup><mo>+</mo><msub><mi>K&alpha;</mi><mi>d</mi></msub></mrow></mfrac><mo>,</mo></mrow></mtd><mtd><mrow><msub><mi>w</mi><mi>i</mi></msub><mo>&Element;</mo><mi>S</mi><mo>,</mo></mrow></mtd></mtr><mtr><mtd><mrow><mfrac><mrow><msubsup><mi>n</mi><mrow><mo>-</mo><mi>i</mi><mo>,</mo><mi>k</mi></mrow><msub><mi>w</mi><mi>i</mi></msub></msubsup><mo>+</mo><msup><mi>&beta;</mi><mi>g</mi></msup></mrow><mrow><msubsup><mi>n</mi><mrow><mo>-</mo><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mo>.</mo><mo>)</mo></mrow></msubsup><mo>+</mo><msup><mi>V&beta;</mi><mi>g</mi></msup></mrow></mfrac><mfrac><mrow><msubsup><mi>n</mi><mrow><mo>-</mo><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mi>d</mi></msubsup><mo>+</mo><msub><mi>&alpha;</mi><mi>d</mi></msub></mrow><mrow><msubsup><mi>n</mi><mrow><mo>-</mo><mi>i</mi><mrow><mo>(</mo><mo>.</mo><mo>)</mo></mrow></mrow><mi>d</mi></msubsup><mo>+</mo><msub><mi>K&alpha;</mi><mi>d</mi></msub></mrow></mfrac><mo>,</mo></mrow></mtd><mtd><mrow><msub><mi>w</mi><mi>i</mi></msub><mo>&NotElement;</mo><mi>S</mi><mo>,</mo></mrow></mtd></mtr></mtable></mfenced></mrow>

式中,S为种子词集,是单词wi与种子方面sk的相关性,αd是文档d的狄利克雷先验参数,V是单词的数目,K表示方面的个数,即种子集中方面的个数,βs是种子词的狄利克雷先验参数,βg是普通词的狄利克雷先验参数,表示单词wi在方面zk的出现数目减去wi出现的数目,表示文档d中的单词出现在方面zk的次数减去wi出现的数目,表示所有单词在方面zk的出现数目减去wi出现的数目,表示文档d中的单词出现在所有方面的次数减去wi出现的数目;

(5e)计算后验概率,所述后验概率包括和

所述的计算公式如下:

<mrow><msubsup><mi>&theta;</mi><mi>k</mi><mi>d</mi></msubsup><mo>=</mo><mfrac><mrow><msubsup><mi>n</mi><mrow><mo>-</mo><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mi>d</mi></msubsup><mo>+</mo><msub><mi>&alpha;</mi><mi>d</mi></msub></mrow><mrow><msubsup><mi>n</mi><mrow><mo>-</mo><mi>i</mi><mrow><mo>(</mo><mo>.</mo><mo>)</mo></mrow></mrow><mi>d</mi></msubsup><mo>+</mo><msub><mi>K&alpha;</mi><mi>d</mi></msub></mrow></mfrac><mo>,</mo></mrow>

式中,表示方面k在文档d中的概率;

所述的计算公式如下:

式中,表示单词wi属于方面k的概率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410114328.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top