[发明专利]一种基于词性特征和语义增强的短文本主题建模方法在审
申请号: | 202010193427.3 | 申请日: | 2020-03-18 |
公开(公告)号: | CN111368068A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 赵博 | 申请(专利权)人: | 江苏鸿程大数据技术与应用研究院有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/284;G06F40/289;G06F40/295;G06F40/30;G06K9/62 |
代理公司: | 北京联瑞联丰知识产权代理事务所(普通合伙) 11411 | 代理人: | 周超 |
地址: | 210000 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词性 特征 语义 增强 文本 主题 建模 方法 | ||
本发明公开了一种基于词性特征和语义增强的短文本主题建模方法,包括:(a)自定义词性特征;(b)计算各个单词间的语义相似度(c)生成建模文档;和(d)在模型的吉布斯采样推断过程中,对特定的单词进行语义增强。以解决现有的短文本主题模型无法对一个主题进行全面、具体的分析,也无法很好地解决短文本中存在的稀疏性的问题。
技术领域
本发明涉及语言处理领域,特别涉及一种基于词性特征和语义增强的短文本主题建模方法。
背景技术
随着社交网络和移动设备的快速发展,短文本媒体逐渐成为人们日常生活中一种重要的信息来源,从这些短文本语料中挖掘潜在主题对于许多基于内容的分析任务来说十分重要,例如内容表征、用户兴趣分析、新兴主题发现和突发事件检测等。与传统的新闻报道和科技文献等长文本相比,短文本通常具备内容简短、编写随意、数据量大和内容繁杂等特点,这无疑给基于短文本的主题分析任务带来了巨大的挑战。
传统的主题模型,如概率潜在语义分析模型(Probabilistic Latent SemanticAnalysis,PLSA)和潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA),通常基于文档层级的单词共现模式进行建模,以挖掘出语料中的潜在主题。但是,由于短文本长度的限制,基于文档层级的单词共现模式在短文本语料中十分稀少,传统的主题模型不再适用。
而现有的短文本主题模型大多是针对短文本语料中存在的稀疏性问题进行改进,主要包括以下三种策略:基于自聚合的策略、基于窗口的策略和基于词嵌入的策略。基于自聚合的策略通过语料中的辅助元信息将短文本聚合成长伪文本,然后再应用传统的主题模型对短文本语料进行建模,然而这种策略高度依赖于数据集,可扩展性较差。基于窗口的策略假定某一窗口内的单词均采样自同一个主题分布,以此来增强短文本语料中的单词共现模式,然而这种策略无法捕获当前语料外具有强烈语义相关性的单词间的共现关系。基于词嵌入的策略通过融入外部语义信息能够在一定程度上缓解短文本中的稀疏性问题,但是基于外部语料训练的词嵌入不一定适用于当前语料,有可能会引入噪声,导致主题质量的降低。
另一方面,现有的短文本主题模型通常利用训练好的主题-单词分布中概率值最高的单词来描述主题,这种主题表示方式过于粗糙,无法对一个主题进行全面、具体的分析,例如,无法分析出与某主题相关的地点、对象和关键词等信息。并且,描述主题的单词中可能含有大量的噪声单词,虽然可以使用通用停词表过滤掉一些无用单词,但仍然会存在一些与主题无关的特定领域的常用词,影响主题的质量。此外,现有的基于词嵌入的短文本主题模型通常基于外部语料训练的词嵌入进行语义增强,这种做法会丢失单词在当前短文本语料中的句法和语义信息,而且存在一些单词没有对应的词嵌入,影响模型精度。
发明内容
本发明要解决的技术问题是提供一种基于词性特征和语义增强的短文本主题建模方法,以解决现有的短文本主题模型无法对一个主题进行全面、具体的分析,也无法很好地解决短文本中存在的稀疏性的问题。
为了解决上述技术问题,本发明的技术方案为:
一种基于词性特征和语义增强的短文本主题建模方法,包括:
(a)自定义词性特征
(b)计算各个单词间的语义相似度
(c)生成建模文档;和
(d)在模型的吉布斯采样推断过程中,对特定的单词进行语义增强。
进一步地,在步骤(a)之中还包括以下步骤:
(a1)根据语料特性和用户需求定义与主题相关的词性特征集;
(a2)进行预处理操作,并将每个单词根据词性标注的结果归入不同的词性特征。
进一步地,在步骤(b)之中还包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏鸿程大数据技术与应用研究院有限公司,未经江苏鸿程大数据技术与应用研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010193427.3/2.html,转载请声明来源钻瓜专利网。