[发明专利]增强BTM主题模型主题词语义相关性和主题凝聚度方法有效
申请号: | 201711487139.3 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108182176B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 谢珺;李思宇;谷兴龙;杨云云;续欣莹 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289 |
代理公司: | 太原市科瑞达专利代理有限公司 14101 | 代理人: | 卢茂春 |
地址: | 030024 山西*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 增强BTM主题模型主题词语义相关性和主题凝聚度方法,属于文本挖掘和机器学习的交叉领域,包括下述内容:(1)文本语料获取以及预处理;(2)词向量模型构建;(3)BTM主题模型的建模;(4)词语之间语义相关性计算;(5)结合双词语义相关的主题模型的建模。本发明的双词扩展的主题模型在主题凝聚度TC值以及Js距离值上都比传统的主题模型有明显的提高。 | ||
搜索关键词: | 增强 btm 主题 模型 主题词 语义 相关性 凝聚 方法 | ||
【主权项】:
1.增强BTM主题模型主题词语义相关性和主题凝聚度方法,包括下述内容:(1)文本语料获取以及预处理:即从电商在线评论中,通过爬虫程序将手机商品里面的评论抓取下来,然后通过分词程序以及停用词词表,对语料进行预处理;(2)词向量模型构建:利用大规模的语料,训练语义相关的词向量,确定词向量的维度,选择合适维度的词向量;(3)BTM主题模型的建模:即用吉布斯采样算法,提取语料中的文档‑主题矩阵A以及主题‑主题词矩阵B;(4)词语之间语义相关性计算:即用已经建立好的词向量模型,通过余弦距离,计算出每条短文本商品评论中,通过分词之后的,任意两个词语之间的语义相关性,并选取合适的主题词语义阈值C,主题词语义阈值C的取值范围为0~1;然后在吉布斯采样中将不同语义距离的词语扩展不同的相关词语数量;(5)结合双词语义相关的主题模型的建模:即将语义距离值C作为筛选条件,选择不同数量的相关词语融入到主题模型吉布斯采样的过程中,实现双词BTM主题模型的构建。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711487139.3/,转载请声明来源钻瓜专利网。