[发明专利]基于领域信息的半监督方面自动提取方法及其系统有效
申请号: | 201410114328.6 | 申请日: | 2014-03-25 |
公开(公告)号: | CN103903164B | 公开(公告)日: | 2017-06-06 |
发明(设计)人: | 蔡毅;王涛;梁浩锋;闵华清 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 蔡茂略 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于领域信息的半监督方面自动提取方法,包括网络信息爬取、信息预处理、关键词提取、评论文档重组和细粒度的标记LDA学习;本发明还公开了一种基于领域信息的半监督方面自动提取系统,包括网络信息爬取模块、信息预处理模块、关键词提取模块、评论文档重组模块和细粒度的标记LDA学习模块。本发明可以使得提取出来的商品各个方面的描述更加明确、方面之间的区别更加清晰;另外,本发明生成的方面结构(顺序和内容)能与预先定义在种子词集中的商品方面结构保持一致,从而,本发明具有能有效地将消费者描述同一商品方面的不同用语进行语义聚类,并可以在对商品进行观点挖掘时减少人工干预等优点。 | ||
搜索关键词: | 基于 领域 信息 监督 方面 自动 提取 方法 及其 系统 | ||
【主权项】:
基于领域信息的半监督方面自动提取方法,其特征在于,包括:网络信息爬取,从电子商务网站上爬取消费者对于关注商品的评论,以及电子商务网站中对于商品半结构化的商品细节描述信息;信息预处理,将爬取到的评论进行分词、词性标注和去除停顿词处理,并提取评论中的特征单词;关键词提取,从电子商务网站中半结构化的商品细节描述信息中提取每个方面类别的关键词作为半监督主题模型的种子词集,获取由电商网站中的专业领域定义的或符合人们认知习惯的商品方面分类作为半监督方法的先验知识;评论文档重组,将评论中各个句子利用提取的所述关键词进行标记,然后将含有相同关键词的句子重新组合成新的文档,得到学习文档;细粒度的标记LDA学习,通过半监督的LDA主题模型识别评论中的产品特征,将所述的产品特征的属于同一方面的特征进行归类;所述半监督的LDA主题模型是通过加入方面‑词的约束关系来监督模型生成分类,并获得顺序与种子词集中定义相一致的商品方面集;所述的方面‑词的约束关系是指在评论中,关键词具有特定的方面倾向;其中,所述方面类别ci中的第j个细节描述短语pi,j中的关键词wt的定义为以下三种定义中的任意一种定义:第一种定义:第二种定义:第三种定义:式中,TFIDFm,i表示单词wm在ci中的TFIDF值,TFt,i表示单词wt在ci中的词频;所述的细粒度的标记LDA学习包括以下步骤:(5a)利用种子词集初始化词‑主题相关性变量相关性变量的设置表达式如下:ρkw=λ(1+ϵkw)+(1-λ),γkw=1,1,γkw=0,]]>其中,表示单词w在种子方面集sk的词频,λ是松弛因子,所述松弛因子用于控制的影响强度,表示单词w是否属于种子方面集sk的指示函数,如果单词w属于种子方面集sk,则为1,否则为0,所述指示函数的定义如下:式中,sk表示种子方面集;(5b)初始化狄利克雷先验概率参数:对于文档d的文档‑方面狄利克雷先验参数αd:αd=α×γld,]]>其中,α=(α1,…,αK),αi=50/K+Δi,K是种子方面的个数,Δi是[0,5]之间的随机数,对于种子词的方面–词的狄利克雷先验参数βs=0.5;对于普通词的方面‑词的狄利克雷先验参数βg=0.1;(5c)初始化后验概率随机初始化单词在方面变量上的分布Z;(5d)采用吉布斯采样方法估计概率P(w,z|α,β,γ)的值,所述概率P(w,z|α,β,γ)的计算公式如下:P(w,z|α,β,γ)=ρkwin-i,kwi+βsn-i,k(.)+Vβsn-i,kd+αdn-i(.)d+Kαd,wi∈S,n-i,kwi+βgn-i,k(.)+Vβgn-i,kd+αdn-i(.)d+Kαd,wi∉S,]]>式中,S为种子词集,是单词wi与种子方面sk的相关性,αd是文档d的狄利克雷先验参数,V是单词的数目,K表示方面的个数,即种子集中方面的个数,βs是种子词的狄利克雷先验参数,βg是普通词的狄利克雷先验参数,表示单词wi在方面zk的出现数目减去wi出现的数目,表示文档d中的单词出现在方面zk的次数减去wi出现的数目,表示所有单词在方面zk的出现数目减去wi出现的数目,表示文档d中的单词出现在所有方面的次数减去wi出现的数目;(5e)计算后验概率,所述后验概率包括和所述的计算公式如下:θkd=n-i,kd+αdn-i(.)d+Kαd,]]>式中,表示方面k在文档d中的概率;所述的计算公式如下:式中,表示单词wi属于方面k的概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410114328.6/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置