[发明专利]短文本主题识别方法和系统在审
申请号: | 201910311522.6 | 申请日: | 2019-04-18 |
公开(公告)号: | CN110046228A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 刘业政;钱洋;陶丹丹;姜元春;毕文亮;孙见山;孙春华;陈夏雨;凌海峰 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F17/27 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 混合模型 特征向量 短文本 构建 参数推断 主题模型 主题识别 数据处理技术 后验分布 有效缓解 主题分布 数据集 稀疏性 文档 单词 | ||
1.一种短文本主题识别方法,其特征在于,包括以下步骤:
S1、获取第一语料集和第二语料集,所述第一语料集为待处理的短文本数据集,所述第二语料集为辅助语料集;
S2、基于所述第二语料集上单词得到隐特征向量以及基于所述第一语料集构建狄利克雷过程混合模型;
S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型;
S4、对所述非参主题模型的主题后验分布进行参数推断;
S5、基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布;
其中,所述基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型,包括:
将词的隐特征向量表示与基于词对的狄利克雷过程混合模型相结合,非参主题模型由狄利克雷多项式组分和隐特征组分双组分混合,生成主题词;引入二元指示变量服从伯努利分布,取值0或者1,取值为1表示单词对中的单词是由隐特征组分生成,否则由狄利克雷多项式组分生成;狄利克雷多项式组分在给定主题k时,生成词的概率满足狄利克雷分布φk,隐特征组分在给定主题k时生成词的概率满足CatE分布,如公式(7):
其中:
τk表示主题k隐特征向量;
表示单词e的隐特征向量;
表示的转置;
非参主题模型生成词的过程定义如下:
其中:
Dir表示狄利克雷分布;
Mult表示多项式分布;
Ber表示伯努利分布;
α0是α0>0表示控制狄利克雷过程混合模型DP方差的集中度参数;
超参数λ表示单词对中的单词由隐特征组分生成的概率,超参数β为狄利克雷分布的参数;
和分别表示主题隐特征向量和单词隐特征向量。
2.如权利要求1所述的短文本主题识别方法,其特征在于,所述步骤S1还包括定义语料集中的相关变量,所述相关变量包括文档篇数、每篇文档包含的单词个数,所有文档中包含的不同单词的个数。
3.如权利要求1所述的短文本主题识别方法,其特征在于,所述步骤S2具体包括以下步骤:
S201、获取第二语料集上单词的隐特征向量表示;
S202、根据所述第一语料集,构造词对;
S203、基于所述词对构建狄利克雷过程混合模型,将所述词对分配到不同主题上。
4.如权利要求3所述的短文本主题识别方法,其特征在于,所述步骤S201包括以下步骤:
S2011、定义Skip-gram模型的学习目标;
S2012、使用负采样算法对Skip-gram模型进行训练,得到单词的隐特征向量表示。
5.如权利要求4所述的短文本主题识别方法,其特征在于,所述步骤S2011中定义Skip-gram模型的学习目标的具体方法为:
给定一个文档序列Skip-gram模型目标为优化最大平均对数概率函数L:
其中:
c为目标单词ei的上下文窗口;
T为文档的长度,即文档中单词的个数;
条件概率p(ei+j|ei)的表达式:
其中:
|V|表示数据集中单词总数;
是目标单词ei的隐特征向量表示;
是上下文单词特征向量表示。
6.如权利要求5所述的短文本主题识别方法,其特征在于,所述步骤S2012中得到单词的隐特征向量的具体方法为:
使用负采样算法对Skip-gram模型进行训练,在每次迭代中,将一个目标单词与其上下文窗口的单词一起采样,利用随机梯度下降法对参数进行优化;迭代完成,得到所有单词的隐特征向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910311522.6/1.html,转载请声明来源钻瓜专利网。