[发明专利]基于商品评论文档集的概念层次创建方法有效
申请号: | 201310754874.1 | 申请日: | 2013-12-31 |
公开(公告)号: | CN103761264A | 公开(公告)日: | 2014-04-30 |
发明(设计)人: | 陈岭;涂鼎 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q30/02 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 商品 评论 文档 概念 层次 创建 方法 | ||
1.一种基于商品评论文档集的概念层次创建方法,其特征在于,包括如下步骤:
步骤1,对初始的文档集进行预处理,得到文档矩阵以及关键词表;
步骤2,根据文档矩阵以及关键词表建立主题模型,并将每个主题下相关度最高的k个名词作为关键概念;
步骤3,对关键概念进行语义关系提取,得到关键概念的距离矩阵;
步骤4,根据距离矩阵进行多路凝聚聚类,得到概念层次。
2.如权利要求1所述基于商品评论文档集的概念层次创建方法,其特征在于,对初始的文档集进行预处理的步骤如下:
步骤1-1,从初始的文档集提取具有评论数据的内容;
步骤1-2,对所提取内容进行去停用词和索引处理;
步骤1-3,根据索引中词的出现频率对内容进行过滤,并生成相应的文档矩阵和关键词表。
3.如权利要求1所述基于商品评论文档集的概念层次创建方法,其特征在于,步骤2中,主题模型的建立方法为:
步骤2-1,从文档矩阵中得到主题-词矩阵;
步骤2-2,由关键词表得到关键名词链表,主题-词矩阵及关键名词链表构成主题模型。
4.如权利要求3所述基于商品评论文档集的概念层次创建方法,其特征在于,步骤2-1中,得到主题一词矩阵的步骤如下:
步骤2-11,读取文档矩阵,并通过预设的参数得到初始的主题模型,并从初始的主题模型得到抽样的文档集,其中预设的参数为文档-主题分布的分布参数以及主题-词分布的分布参数;
步骤2-12,根据抽样的文档集与文档矩阵的分布差异来对主题模型进行调整;
步骤2-13,将步骤2-12重复8000至12000次,从所得的主题模型得到主题-词分布矩阵,将每个主题下的词按出现概率大小进行排序,从而得到主题-词矩阵。
5.如权利要求3所述基于商品评论文档集的概念层次创建方法,其特征在于,步骤2-2中,得到关键名词链表的步骤如下:
步骤2-21,读取关键词表,并建立一个初始的关键名词链表,由关键词表向该关键名词链表输入所有关键词,并去除重复的关键词;
步骤2-22,对于每个关键词,判定所述关键词在各个句子中的词性,统计各个词性出现的概率,选择出现概率最大的词性作为该词在整个文档集中的词性;
步骤2-23,将所有名词词性的关键词作为关键概念储存于关键名词链表中。
6.如权利要求1所述基于商品评论文档集的概念层次创建方法,其特征在于,步骤3中,语义关系提取的步骤如下:
步骤3-1,将全部关键概念组成一个关键概念集合;
步骤3-2,遍历各个句子,若包含关键概念,则将其写入一个文件中;
步骤3-3,对所有关键概念进行语义消歧;
步骤3-4,对于语义消歧后的每一个关键概念,统计其所有语义ID在初始的文档集出现次数,将出现次数最多的语义作为其在初始的文档集中的语义;
步骤3-5,根据步骤3-4中所得到的语义计算词典语义距离;
步骤3-6,根据所有关键概念对在初始文档中出现的相关性计算其统计语义距离;
步骤3-7,将词典语义距离和统计语义距离进行结合得到语义距离,所有关键概念两两之间的语义距离所形成的矩阵作为最终的语义距离矩阵。
7.如权利要求6所述基于商品评论文档集的概念层次创建方法,其特征在于,步骤3-3中,对各个关键概念的语义消歧方法如下:
步骤a),读取该关键概念在同义词词林的所有语义ID;
步骤b),根据语义ID在同义词词林中的顶级分类进行过滤;
步骤c),获取所有语义ID的同义词集;
步骤d),统计各个同义词在初始的文档集中出现的次数,选择出现次数最多的语义ID作为该关键概念的语义ID。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310754874.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种碎石端可封闭的经皮肾镜取石装置
- 下一篇:自动护理锯口的果树修剪机