[发明专利]一种基于词性特征和语义增强的短文本主题建模方法在审
申请号: | 202010193427.3 | 申请日: | 2020-03-18 |
公开(公告)号: | CN111368068A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 赵博 | 申请(专利权)人: | 江苏鸿程大数据技术与应用研究院有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/284;G06F40/289;G06F40/295;G06F40/30;G06K9/62 |
代理公司: | 北京联瑞联丰知识产权代理事务所(普通合伙) 11411 | 代理人: | 周超 |
地址: | 210000 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词性 特征 语义 增强 文本 主题 建模 方法 | ||
1.一种基于词性特征和语义增强的短文本主题建模方法,其特征在于,包括:
(a)自定义词性特征
(b)计算各个单词间的语义相似度
(c)生成建模文档;和
(d)在模型的吉布斯采样推断过程中,对特定的单词进行语义增强。
2.根据权利要求1的短文本主题建模方法,其特征在于,在步骤(a)之中还包括以下步骤:
(a1)根据语料特性和用户需求定义与主题相关的词性特征集;
(a2)进行预处理操作,并将每个单词根据词性标注的结果归入不同的词性特征。
3.根据权利要求1的短文本主题建模方法,其特征在于,在步骤(b)之中还包括以下步骤:
(b1)通过计算外部词嵌入和本地词嵌入的加权平均获取单词的联合词嵌入;
(b2)然后通过计算联合词嵌入之间的余弦距离来衡量不同单词间的语义相似度,获得每个单词与其语义相关的单词的集合。
4.根据权利要求1的短文本主题建模方法,其特征在于,在步骤(c)之中还包括以下步骤:
(c1)首先根据词性标注的结果判别该单词的词性特征;
(c2)若为地点和对象特征,则从对应的主题特征-单词分布中采样该单词;
(c3)否则,另外引入一个开关变量,来决定该单词是与主题相关的关键词还是全局背景单词。
5.根据权利要求1的短文本主题建模方法,其特征在于,在步骤(d)之中还包括以下步骤:
(d1)首先为每篇文档随机初始化一个主题;
(d2)然后通过计算条件概率分布为每篇文档重新采样一个主题,并更新相应的计数;迭代直至模型收敛;
(d3)待模型收敛之后,利用极大后验估计便可计算出全局主题分布和主题特征和单词分布计算公式为:
6.根据权利要求1-5任一所述的短文本主题建模方法,其特征在于,还包括一种测试模型方法,包括以下步骤:
(e1)分别在全网新闻数据集和检索片段数据集上,从主题连贯性指标、短文本分类指标和短文本聚类指标三个方面评估;
(e2)并和其他短文本主题模型进行了对比。
7.根据权利要求2所述的短文本主题建模方法,其特征在于,对于中文语料,在分词后采用词性标注集对每个单词进行词性标注;对于英文语料,使用自然语言处理工具包进行词性标注和命名实体识别。
8.根据权利要求4所述的短文本主题建模方法,其特征在于,其中单词w在嵌入空间中的表示为v(w),主题zd在嵌入空间中的表示为v(zd),则单词w与主题zd的相关度可以定义为两者在嵌入空间中的余弦距离:
9.根据权利要求8所述的短文本主题建模方法,其特征在于,其中v(zd)的计算过程如下:首先选取主题zd的每个特征分布下概率值最高的前N个单词,构成主题zd的代表词集合W(zd),然后计算词向量的平均值作为主题zd在嵌入空间中的最终表示v(zd)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏鸿程大数据技术与应用研究院有限公司,未经江苏鸿程大数据技术与应用研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010193427.3/1.html,转载请声明来源钻瓜专利网。