[发明专利]话题名称的提取方法及装置有效
申请号: | 201510697984.8 | 申请日: | 2015-10-23 |
公开(公告)号: | CN106610931B | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 朱波 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 11348 北京鼎佳达知识产权代理事务所(普通合伙) | 代理人: | 王伟锋;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话题 名称 提取 方法 装置 | ||
1.一种话题名称的提取方法,其特征在于,包括:
获取文本数据中各个共现词分别对应的互信息值;
从所述共现词中提取互信息值大于预置互信息值的目标共现词;
分别获取所述目标共现词与所述文本数据的话题词簇的相似度值;
将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。
2.根据权利要求1所述的话题名称的提取方法,其特征在于,所述获取文本数据中各个共现词分别对应的互信息值之前,所述方法还包括:
按照预置划分规则将所述文本数据划分为多个数据模块。
3.根据权利要求2所述的话题名称的提取方法,其特征在于,所述获取文本数据中各个共现词分别对应的互信息值包括:
分别获取各个数据模块中各个共现词分别对应的互信息值。
4.根据权利要求1所述的话题名称的提取方法,其特征在于,所述分别获取所述目标共现词与所述文本数据的话题词簇的相似度值包括:
通过余弦相似度算法分别获取所述目标共现词与所述文本数据的话题词簇的相似度值。
5.根据权利要求1所述的话题名称的提取方法,其特征在于,所述将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称之后,所述方法还包括:
获取所述话题名称分别在所述文本数据的话题词簇中的位置信息;
根据所述位置信息的先后顺序,对所述话题名称进行排序。
6.一种话题名称的提取装置,其特征在于,包括:
获取单元,用于获取文本数据中各个共现词分别对应的互信息值;
提取单元,用于从所述共现词中提取互信息值大于预置互信息值的目标共现词;
所述获取单元,还用于分别获取所述目标共现词与所述文本数据的话题词簇的相似度值;
确定单元,用于将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。
7.根据权利要求6所述的话题名称的提取装置,其特征在于,所述装置还包括:
划分单元,用于按照预置划分规则将所述文本数据划分为多个数据模块。
8.根据权利要求7所述的话题名称的提取装置,其特征在于,
所述获取单元,具体用于分别获取各个数据模块中各个共现词分别对应的互信息值。
9.根据权利要求6所述的话题名称的提取装置,其特征在于,
所述获取单元,具体用于通过余弦相似度算法分别获取所述目标共现词与所述文本数据的话题词簇的相似度值。
10.根据权利要求6所述的话题名称的提取装置,其特征在于,所述装置还包括:排序单元;
所述获取单元,还用于获取所述话题名称分别在所述文本数据的话题词簇中的位置信息;
所述排序单元,用于根据所述位置信息的先后顺序,对所述话题名称进行排序。
11.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求5中任意一项所述的话题名称的提取方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求5中任意一项所述的话题名称的提取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510697984.8/1.html,转载请声明来源钻瓜专利网。