[发明专利]话题名称的提取方法及装置有效
申请号: | 201510697984.8 | 申请日: | 2015-10-23 |
公开(公告)号: | CN106610931B | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 朱波 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 11348 北京鼎佳达知识产权代理事务所(普通合伙) | 代理人: | 王伟锋;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话题 名称 提取 方法 装置 | ||
本发明公开了一种话题名称的提取方法及装置,涉及信息技术领域,解决了话题名称可读性低的问题。本发明的主要技术方案为:获取文本数据中各个共现词分别对应的互信息值,从所述共现词中提取互信息值大于预置互信息值的目标共现词,分别获取所述目标共现词与所述文本数据的话题词簇的相似度值,将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。本发明主要用于从文本数据中提取话题名称。
技术领域
本发明涉及信息技术领域,尤其涉及一种话题名称的提取方法及装置。
背景技术
话题名称是指能够表示新闻、微博、论坛、博客等文本数据的篇章焦点的词或短语,其中,话题名称可以表示出文本数据的核心内容,因此从海量文本数据中提取话题名称有助于分析文本数据的核心内容。
目前,话题名称提取方法主要有以下两种方式,分别为基于聚类的提取方法和基于话题模型的提取方法,两种话题名称提取方法的话题表征方式是由多个词组成的词簇,每个词簇可以代表一个话题。
但是,在基于词簇的话题表征方式中,由于对文本数据中名词短语的提取具有一定难度,且名词短语提取受到中文分词、词性标注的影响,因此名词短语的提取结果中存在着一定的错误,从而基于词簇的话题表征方式将无法准确表示话题内容;另外,由于提取的短语存在的数据稀疏,因此无论采用话题模型提取方法还是聚类提取方法进行话题识别,都会因为数据稀疏导致部分话题内容的名词短语无法展示出来,从而在基于词簇的话题表征方式中,话题名称的可读性低。
发明内容
鉴于上述问题,提出了本发明,以便提供一种克服上述问题或者至少部分地解决上述问题的话题名称的提取方法及装置。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明实施例提供了一种话题名称的提取方法,该方法包括:
获取文本数据中各个共现词分别对应的互信息值;
从所述共现词中提取互信息值大于预置互信息值的目标共现词;
分别获取所述目标共现词与所述文本数据的话题词簇的相似度值;
将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。
另一方面,本发明实施例还提供一种话题名称的提取装置,该装置包括:
获取单元,用于获取文本数据中各个共现词分别对应的互信息值;
提取单元,用于从所述共现词中提取互信息值大于预置互信息值的目标共现词;
所述获取单元,还用于分别获取所述目标共现词与所述文本数据的话题词簇的相似度值;
确定单元,用于将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
由上述技术方案,本发明提供的话题名称的提取方法及装置,首先获取文本数据中各个共现词分别对应的互信息值,然后从所述共现词中提取互信息值大于预置互信息值的目标共现词,再分别获取所述目标共现词与所述文本数据的话题词簇的相似度值,最后将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。与目前通过基于聚类提取方法或基于话题模型提取方法提取的话题名称相比,本发明实施例首先获取文本数据中各个共现词分别对应的互信息值,然后从所述共现词中提取互信息值大于预置互信息值的目标共现词,最后将与话题词簇的相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称,由于本发明中的话题名称是由文本数据中的共现词提取的,且话题名称与文本数据的话题词簇满足一定的相似度,因此通过本发明提取的话题名称的可读性高。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510697984.8/2.html,转载请声明来源钻瓜专利网。