[发明专利]基于商品评论文档集的概念层次创建方法有效
申请号: | 201310754874.1 | 申请日: | 2013-12-31 |
公开(公告)号: | CN103761264A | 公开(公告)日: | 2014-04-30 |
发明(设计)人: | 陈岭;涂鼎 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q30/02 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 商品 评论 文档 概念 层次 创建 方法 | ||
技术领域
本发明涉及语义挖掘领域,尤其涉及基于商品评论文档集的概念层次创建方法。
背景技术
随着社交网络和电子商务的迅速发展,网络和信息系统中产生了大量评论数据。面对庞大的数据集,人们一般难以快速找到其感兴趣的内容,如电子商务系统用户往往需要阅读某一产品大量的用户评论,才能对其某项性能做出相对准确的评价。由于概念层次能提供数据之间的内在相关性,所以其能大幅提高人们分析数据集的效率,发掘其内在价值,在信息检索、文本分类、自动问答等领域有着广阔的应用空间。
概念层次是一个分类表,以等级方式对概念进行分类,是本体的一种特殊形式,其仅包含子类关系。构建针对特定文档集的概念分类通常包含3个步骤:1)提取出对于该文档集来说是最具代表性和相关性的概念;2)在确认这些概念后,发掘出这些概念之间的语义关系;3)通过概念之间的语义关系将其有效的组织起来。一般获得文档集关键概念和语义关系之后需要通过恰当的方法去生成最终的层次结构。在语义关系比较明显的情况下,可以采用推理的方法去生成最终结构,但此类方法对于文本本身数量和质量要求较高,在评论数据中无法满足。而其他情况下,则一般采取根据语义距离进行层次聚类的方法。
公开号为1669029A的专利文献公开了一种可自一文件集合中自动搜寻概念并自动生成一概念层次结构的方法、系统及计算机程序。该方法包括:自文件集合中抽取特征字符;利用统计方法计算特征字符间的相似度;提炼特征字符的分布频率以使上述相似度计算趋于精确;对特征字符进行语义排歧以解决意义分歧的问题;以经提炼的分布频率及语义排歧后的特征字符为基础,重新计算特征字符的相似度。经再次计算所得的相似度可反映各特征字符间的实际相似程度,藉此,可将相关的特征字符进行聚类形成不同的概念,所得概念排列为一个概念层次结构。该概念层次结构可自动对某一待检索的特定概念产生询问并返回与该概念相关的文件。
层次聚类是一种常用的数据聚类方法,其根据一定标准对数据进行层次分解。基本层次聚类方法一般以二叉树的形式输出最终结果,但这样的知识表达方式对于很多应用场景来说显得不恰当。例如在电视机评论数据中有液晶电视、等离子电视和OLED电视三个概念,较符合人类认知的概念分类应该将这三个概念合并到同一个节点下,但通过基本层次聚类算法无法实现。
发明内容
为了能够对数据实现符合人类认知的聚类,本发明提出了一种基于商品评论文档集的概念层次创建方法。
一种基于商品评论文档集的概念层次创建方法,包括如下步骤:
步骤1,对初始的文档集进行预处理,得到文档矩阵以及关键词表;
步骤2,根据文档矩阵以及关键词表建立主题模型,并将每个主题下相关度最高的k个名词作为关键概念;
步骤3,对关键概念进行语义关系提取,得到关键概念的距离矩阵;
步骤4,根据距离矩阵进行多路凝聚聚类,得到概念层次。
k的取值由用户根据需要来确定,一般取值范围在10-15。在概念层次生成时,使用多路凝聚层次聚类组织概念节点,从而构建多叉树形式的概念分类。
对初始的文档集进行预处理的步骤如下:
步骤1-1,从初始的文档集提取具有评论数据的内容;
步骤1-2,对所提取内容进行去停用词和索引处理;
步骤1-3,根据索引中词的出现频率对内容进行过滤,并生成相应的文档矩阵和关键词表。
某些情况下,一些常见词在文档和用户需求进行匹配时价值并不大,需要彻底从词汇表中去除,这类词称为停用词。常用的生成停用词表的方法就是将词项按照在文档集中出现的频率从高到低排列,然后手工选择那些语义内容与文档主题关系不大的高频词作为停用词。停用词表中的每个词将在索引过程中被忽略。使用停用词表可以大大减小系统所需要存储的倒排记录表的数目。采用分词器进行索引处理。
步骤2中,主题模型的建立方法为:
步骤2-1,从文档矩阵中得到主题-词矩阵;
步骤2-2,由关键词表得到关键名词链表,主题-词矩阵及关键名词链表构成主题模型。
其中,关键概念来自于关键名词链表。主题模型通过词项在文档集的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达。
步骤2-1中,得到主题-词矩阵的步骤如下:
步骤2-11,读取文档矩阵,并通过预设的参数得到初始的主题模型,并从初始的主题模型得到抽样的文档集,其中预设的参数为文档-主题分布的分布参数以及主题-词分布的分布参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310754874.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种碎石端可封闭的经皮肾镜取石装置
- 下一篇:自动护理锯口的果树修剪机