[发明专利]基于自扩充表示和相似双向约束的短文本主题发现方法及系统有效

专利信息
申请号: 201810306013.X 申请日: 2018-04-08
公开(公告)号: CN108681557B 公开(公告)日: 2022-04-01
发明(设计)人: 姜波;李宁;卢志刚;姜政伟 申请(专利权)人: 中国科学院信息工程研究所
主分类号: G06F16/33 分类号: G06F16/33;G06F40/216;G06F40/30;G06F40/289
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 余长江
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 扩充 表示 相似 双向 约束 文本 主题 发现 方法 系统
【说明书】:

本分明提供一种基于自扩充表示和相似双向约束的短文本主题发现方法及系统,该方法的步骤包括:基于TF‑IWF词权重度量方法构建待挖掘主题的词‑文档矩阵;向量化短文本文档并度量两两文档间相似性,得到虚拟长文档集合;利用TF‑IWF词权重度量方法,在虚拟长文档集合上构建虚拟辅助的词‑文档矩阵;合并两个矩阵为混合矩阵;构建词‑词语义相似矩阵、文档‑文档语义相似矩阵,进而构建词‑词语义关系正则项、文档‑文档语义关系正则项;得到TRNMF模型,通过分解损失函数值,获得最优的词‑话题潜在特征矩阵、话题‑文档潜在特征矩阵,发现短文本主题分布情况。

技术领域

发明涉及一种内部蕴含社交网络的社交型短文本数据主题挖掘的技术,具体涉及一种基于自扩充表示和相似双向约束的短文本主题发现方法及系统。

背景技术

随着互联网、移动应用及社交网络的迅猛发展,海量的短文本信息呈现爆炸式增长。分析和挖掘这些无结构的文本信息背后所蕴含的深层语义结构具有重要的理论价值和现实意义。例如,准确的语义理解可帮助企业根据用户的搜索请求偏好来完善产品功能,改善用户体验度;帮助政府检测出危害信息,防范危机,具有安定社会的重要作用;帮助用户避免信息过载问题,过滤无用信息,只关注有价值的信息。此外,大量网络应用服务,如产品评论、知识问答、查询推荐等,都需要理解大量短文本语义信息。可见,准确且高效的短文本理解技术对于改善网络应用平台的用户体验也至关重要。

目前已有大量研究工作试图从海量的短文本数据中挖掘其语义信息。然而,短文本的有限长度、书写不规范、语义多歧义等特性为文本理解工作带来了新的挑战。因此,为了更好地理解短文本的语义信息,大量研究者在短文本语义分析与处理方面做出了很多尝试性的研究。总结相关工作,短文本主题建模采用的技术主要包括以下几个方面:

(1)基于外部辅助数据源的方法。这类方法通过借用Wikipedia、WordNet、门户网站、搜索结果或者其他辅助数据来扩展每个短文本文档的表示,然后在内部特征和外部特征的共同作用下利用主题挖掘模型进行语义识别,以此来提高短文本主题挖掘的效果。但是,这种方式会带来外部噪音及引入维度灾难等问题,影响原始短文本文档的语义理解。另外,该方法对短文本主题挖掘的效果在很大程度上取决于原始短文本文档与扩展的外部数据的相关程度。事实上,由于短文本内容实时性较强,找到与之匹配的合适外部数据源有时候是非常困难的,而且二者在语言表达方式上也存在很大差异。

(2)基于文本内部数据扩充的方法。这类方法通过按照同一作者、词共现关系、伪相关反馈、重采样等策略,实现短文本的重新聚合,形成一个虚拟长文档,再利用主题模型对其进行语义分析。这种启发式聚合策略的优点是不会引入一些异质数据源中的噪音,因此在目前短文本相关的研究中使用较多且模型性能表现优异。但是,该类方法存在着一个关键问题是如何选择扩展规则以及扩展表示方式,目前并没有形成一个通用的准则。如果扩展的不好,同样也可能给原始短文本文档带来语义理解的偏差。

(3)基于文本标注信息表示短文本语义的方法。有别于上述两种方法,这类方法通过利用Hahstag、URL、表情符号、提及符号或回复符合等信息进行指定类型的主题模型学习,无法识别潜在主题。这种方式在本质上并没有解决短文本的内容稀疏性问题,而且文本标注信息通常非常少,所以这类方法的使用范围具有局限性。

综上所述,目前对短文本的语义分析与挖掘的方法仍存在很多不足之处。借助外部数据源,抑或是内部数据扩展的方法都没有作出实质性的改进。短文本文档通常仅包含几个或十几个词,无论是词频信息还是词共现信息都非常缺乏,要基于如此有限的信息来推断出文档内部的主题结构非常困难。因此,解决短文本数据稀疏性问题是分析与挖掘短文本文档主题结构的关键所在,同时也是一个新的挑战。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810306013.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top