[发明专利]基于领域信息的半监督方面自动提取方法及其系统有效
申请号: | 201410114328.6 | 申请日: | 2014-03-25 |
公开(公告)号: | CN103903164B | 公开(公告)日: | 2017-06-06 |
发明(设计)人: | 蔡毅;王涛;梁浩锋;闵华清 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 蔡茂略 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 领域 信息 监督 方面 自动 提取 方法 及其 系统 | ||
技术领域
本发明涉及一种商品观点挖掘技术,特别涉及一种基于领域信息的半监督方面自动提取方法及其系统。
背景技术
随着电子商务的日益普及,越来越多的消费者都选择在网上购买商品和服务,尤其是近几年的蓬勃发展,不同模式(B2B、B2C、C3C等)、不同领域的各类型电子商务网站不断涌现,竞争不断加剧,用户需求也不断提高。生产和销售厂商总是试图及时获取公众或消费者对它们产品和服务的评价观点以提升产品质量及销量;而潜在的消费者在享受一种服务或购买一种产品之前,也想知道当前消费者的评价观点,以便选择真正适合自身的产品。通过对网络上大量的消费者评论反馈进行自动化的观点挖掘有助于解决上述问题,自动化的观点挖掘有以下三个方面的优势:首先,该方法总结的结果可以避免用手工阅卷中公司的人员变动使得评价结果出现不一致的现象。其次,该类系统可以近实时地从网上吸收大量的信息进行分析,这使得调查成本相对较低。第三,观点挖掘系统还可以处理多种语言的文档,这在传统方法中,对于一般人员是很难达到掌握多种语言的要求。然而,在当前主流的观点挖掘框架中,对于商品方面的提取往往是整个框架的瓶颈,因为该步骤需要将描述相同商品方面的不同用语进行语义归类。此问题是目前该领域的一个研究热点。
当前商品方面提取的方法主要有:基于频繁字符串和基于主题模型(topic model)的挖掘算法。前者的主要不足是不能将描述同一商品方面的语义相关的用语进行归类,这导致该类方法无法用一种有结构的方式帮助用户快速、直观地了解商品的各个方面特征;对于后者,大部分方法采用的是无监督式的学习方式,这导致了以下的缺点与不足:
1.模型生成方面的粒度和分类标准可能与人的认知习惯相悖,使得结果难以被理解。
2.无监督模型每次生成的方面序列不能保持一个稳定的结构,导致难以在自动化的分析算法中应用。
3.由于大部分评论都包含相同或相似的商品方面,这将使得基于单词共现性原理的主题模型方法难以将各个相关但不同的方面清晰地加以区分。
因此,为了更有效地从商品评论中提取商品方面,需要引入一些先验知识来监督主题模型的学习过程,使得模型提取出来的商品方面分类更加清晰、更好地满足人们的认知习惯、并以一种较稳定的结构输出。
发明内容
本发明的首要目的在于克服现有技术的缺点与不足,提供一种基于领域信息的半监督方面自动提取方法,该方法通过同时在文档层次和词层次对LDA模型进行标记学习,可以使得提取出来的各个商品方面的相关的信息描述得更加明确,方面之间的区别更加清晰。
本发明的另一目的在于克服现有技术的缺点与不足,提供一种基于领域信息的半监督方面自动提取系统,该系统能与预先定义的方面种子词的结构保持一致,从而有效地将消费者描述同一商品方面的不同用语进行语义聚类,并可以在对商品进行观点挖掘时减少人工干预。
本发明的首要目的通过下述技术方案实现:基于领域信息的半监督方面自动提取方法,包括:
网络信息爬取,从电子商务网站上爬取消费者对于关注商品的评论,以及电子商务网站中对于商品半结构化的商品细节描述信息;
信息预处理,将爬取到的评论进行分词、词性标注和去除停顿词处理,并提取评论中的特征单词;
关键词提取,从电子商务网站中半结构化的商品细节描述信息中提取每个方面类别的关键词作为半监督主题模型的种子词集,获取由电商网站中的专业领域定义的或符合人们认知习惯的商品方面分类作为半监督方法的先验知识;
评论文档重组,将评论中各个句子利用提取的所述关键词进行标记,然后将含有相同关键词的句子重新组合成新的文档,得到主题鲜明、共现商品方面较少的学习文档;
细粒度的标记LDA学习,通过半监督的LDA主题模型识别评论中的产品特征,将所述的产品特征的属于同一方面的特征进行归类;所述半监督的LDA主题模型是通过加入方面-词的约束关系来监督模型生成更加易于理解、清晰的分类,并获得顺序和种子词集中定义相一致的商品方面集;所述的方面-词的约束关系是指在评论中,关键词具有特定的方面倾向,如:“LCD”更多的是用来描述“屏幕”方面;
其中,所述方面类别ci中的第j个细节描述短语pi,j中的关键词wt的定义为以下三种定义中的任意一种定义:
第一种定义:m≠t,TFIDFm,i<TFIDFt,i;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410114328.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置