[发明专利]基于语义图谱的短文本特征扩展方法有效
申请号: | 201410686237.X | 申请日: | 2014-11-25 |
公开(公告)号: | CN104391942B | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 徐博;王鹏;王方圆;张恒;郝红卫 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙)11482 | 代理人: | 宋宝库 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 图谱 文本 特征 扩展 方法 | ||
技术领域
本发明涉及文本挖掘技术领域,是一种基于主题-关键词语义图谱和链接分析的短文本特征扩展方法,可应用于短文本分类、聚类任务中的特征表示,并最终应用于知识问答,用户意图理解和智能检索等子领域。
背景技术
随着大数据时代的到来,互联网以及各种移动终端都产生了大量的短文本信息,比如网页检索片段、微博、产品评论、新闻标题以及各种微信息等,而特定用户所关注的有用信息也被海量的资源所湮没。如何让系统智能管理和更好的使用这些海量的数据资源,面临着巨大的挑战。因此一种高精度的短文本分类方法可以帮助系统加深对短文本内容的理解,对于构建智能网络和智能系统有重要作用。短文本特征扩展是实现短文本特征有效表示的一种必要手段,短文本的高精度自动分类是文本挖掘领域中一个重要的子问题。与其紧密相关的技术领域包括:知识问答、用户意图理解、智能信息检索等。目前,短文本分类任务的一个显著特征是总体数据量巨大,但是由于短文本长度的限制,其包含的词共现和上下文信息不足。传统的特征表示方法和分类模型面临严重的数据稀疏性问题,同时由于受到同义词和多义词的影响,快速准确的进行短文本的自动分类,仍然是一项极具挑战性的技术。因此,如何获得短文本特征的有效表示并改善其分类性能是一个亟待解决的问题。
针对海量短文本的自动分类技术展开的各项研究,主要是集中在如何选取更好的特征表达上,以解决由于短文本自身特性所造成的稀疏性和歧义性问题。目前,短文本特征的表示方法大体上可分为两种,一种是使用语言模型将短文本在特征空间中映射为有效的特征向量;另一种 是对短文本内容进行信息扩展,然后基于词袋模型对短文本特征进行表示。
基于语言模型的短文本特征表示,主要是利用深度学习算法先对词进行向量表示,然后再合成句子,或者直接对句子进行向量表示。但是该方法模型繁琐,执行复杂度较高,而且在句子层面的特征表示尚不能满足应用需求。传统的词袋模型在对短文本进行特征表示时,简单易操作,而且时间复杂度较低,但是存在严重的数据稀疏性问题,而且忽略了词语之间的语义信息。此外,主题上很相关的短文本可能含有非常少的重叠关键词,导致短文本之间的相似度难以有效计算,将直接影响分类任务的性能。目前针对该问题,主流的技术主要是使用潜在的语义信息或者相关的关键词对短文本进行信息扩展。而这些扩展信息的获得往往需要大规模的外部辅助语料或者借助搜索引擎,其中辅助训练语料和目标短文本数据集要求具有语义一致性。然而这些大规模训练语料的收集是很耗时耗力的。基于搜索引擎的特征扩展方法,首先是提取短文本中出现的关键词作为Query,通过搜索引擎进行检索,然后将返回的结果作为扩展信息。但是这种方法的时间复杂度很大,特别是在处理海量短文本时,是不可取的。
综上所述,基于传统词袋模型的短文本特征表示技术主要存在以下两个问题:一是短文本中词共现不足,以及关键词出现在不同的上下文环境中表达不同的语义,即短文本在特征表示时存在数据稀疏性和语义敏感性问题;二是依赖外部大规模的辅助训练语料或者搜索引擎,而外部训练语料要求与目标数据集具有语义一致性,这一点使其难以搜集。基于搜索引擎的方法时间复杂度较大,难以适应海量数据或者在线数据的处理。这些问题都使得短文本的相似度计算面临着巨大困难,严重影响分类任务的性能。本发明提出一种短文本特征的扩展方法,可以在很大程度上弥补传统词袋模型的缺点,并进一步改善短文本分类的性能。
发明内容
针对上述两个主要问题,本发明提出了一种基于语义图谱的短文本 特征扩展方法,解决了传统词袋模型对短文本特征表示中的数据稀疏性问题和语义敏感性问题,并最终改善短文本的分类性能。
本发明所提出的一种基于语义图谱的短文本特征扩展方法包括以下步骤:
步骤1,使用短文本训练数据集进行主题建模,提取每一个主题下的关键词概率分布;
步骤2,采用基于主题概率分布的指数变换排序方法,对每一个主题下的关键词分布进行重排序,获得重排序的主题表示;
步骤3,基于重排序的主题表示,对于每一个主题,选择前N个关键词生成由候选关键词构成的候选关键词词典,并构建主题-关键词语义图谱;
步骤4,采用候选关键词词典与目标短文本中的短语进行匹配的方法对目标短文本进行过滤,将匹配到的短语作为种子关键词,利用主题-关键词语义图谱,候选关键词词典中所有元素的相似度,提取前V个最相似的候选关键词对所述种子关键词进行扩展。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410686237.X/2.html,转载请声明来源钻瓜专利网。