[发明专利]一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法有效
申请号: | 201510082519.3 | 申请日: | 2015-02-15 |
公开(公告)号: | CN104699766B | 公开(公告)日: | 2018-01-02 |
发明(设计)人: | 张宇;刘妙 | 申请(专利权)人: | 浙江理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天勤知识产权代理有限公司33224 | 代理人: | 蒋琼 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 词语 关联 关系 上下文 语境 推断 属性 挖掘 方法 | ||
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法。
背景技术
在观点挖掘领域,属性词挖掘和情感词挖掘是两个基本的子任务。通过属性词挖掘,能够对用户观点进行分类汇总,从而为用户提供更好的决策支持。目前,面向产品评论的属性词挖掘技术,主要分为显式属性挖掘和隐式属性挖掘两大类。显式属性挖掘相对简单,学者们已经开展了大量的研究工作。而隐式属性挖掘则十分复杂,目前相关研究工作较少。
在隐式属性挖掘方面,Liu等人在文献《Opinion observer:analyzing and comparing opinions on the Web》中提出了通过规则挖掘(rule mining)的方式建立产品属性和属性值间的映射,比如将“heavy”映射到属性“weight”,将“big”映射到属性“size”,然后通过上述映射关系进行隐式属性的挖掘。然而,映射规则的建立需要一定的人工标注,因此,隐式属性挖掘的准确率受限于规则标注的数量和质量。此外,针对新的领域,映射规则需要重新进行人工标注,时间成本高且准确率也难以保证。
Su等人在文献《Hidden sentiment association in Chinese Web opinion mining》中提出了一种基于属性词和情感词共现关系的隐式属性挖掘方法,通过迭代地在属性词和情感词上应用相互加强聚类的算法,得到属性词簇和情感词簇,从而将单个属性词和单个情感词之间的关联关系扩展为属性词簇和情感词簇之间的关联关系。但是她们的方法并未考虑情感词之外的其它词语与属性词之间的关联关系。
仇光等人在文献《基于正则化主题建模的隐式产品属性抽取》中提出了一种基于正则化主题建模(regularized topic modeling)思想的隐式属性挖掘方法。在不需要先验知识的前提下,根据属性相关词实现隐式属性的挖掘,但是该方法并没有考虑评论分句的上下文语境。
发明内容
针对现有技术的不足,本发明提出了一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法。
一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法,包括如下步骤:
(1)构建语料库,并利用所述的语料库构建当前品类产品的参考评论数据集、属性词词典、情感词词典、实词词典、属性词-情感词修饰矩阵和属性词-实词共现矩阵,具体如下:
(1-1)获取不同品类产品的评论数据,并对获取的评论数据进行预处理;
具体过程如下:
(1-11)对评论数据的规范化处理:将评论数据中的繁体字转换为简体字,识别其中的错别字并进行更正,并对存在乱码和包含无法识别的外文单词的评论语句进行删除;
(1-12)垃圾评论过滤:利用正则表达式对含有QQ号、手机号、网站网址等信息的评论语句进行过滤;
(1-13)对评论数据进行中文分词和词性标注,然后进行停用词过滤,最后删除通篇无标点和分句过长的评论语句。
(1-2)利用预处理后的评论数据构建语料库;
本发明中构建的语料库应理解为所有预处理后的评论数据的集合。
(1-3)针对当前品类的产品,将语料库中当前品类产品的评论数据作为当前品类产品的参考评论数据集,并基于所述的参考评论数据集构建当前品类产品的属性词词典、情感词词典和实词词典;
本发明根据各个属性词、情感词和实词在所述的参考评论数据集中的出现情况构建属性词词典、情感词词典和实词词典,具体如下:
(a)通过如下操作构建属性词词典:
根据所述的参考评论数据集,利用双向迭代的方法构建初始属性词词集F和初始情感词词集O:
针对初始属性词词集F中的任意一个属性词,根据该属性词在参考评论数据集中的出现次数,利用如下公式计算出初始属性词词集F中每个属性词的TF-IDF权值:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江理工大学,未经浙江理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510082519.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种对象编号的生成方法和装置
- 下一篇:一种计算全文检索查全率的方法及装置