[发明专利]一种文本主题提取方法、系统和存储介质在审
申请号: | 201811467779.2 | 申请日: | 2018-12-03 |
公开(公告)号: | CN109783616A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 赵淦森;林成创;列海权;纪求华;赵淑娴;陈冰川;李振宇;邓水凤;朱俊杰;冯梦珂;颜志鸿;孙元基;欧小梅;刘秋敏;黄伟雄 | 申请(专利权)人: | 广东蔚海数问大数据科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F17/27 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 胡辉 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集合 词表 文本 存储介质 文本集合 文本主题 更新 并集 权重 删除 数据处理技术 单独提取 集合生成 实时性 运算量 减去 应用 | ||
本发明公开了一种文本主题提取方法、系统和存储介质,所述方法包括以下步骤:单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;根据第一主题词集合生成词云或者词表;当添加文本时,将新的本文的主题词集合与第一主题词集合进行并集操作,并更新词云或者词表;当删除文本时,在第一集合中减去被删除文本各主题词的权重,并更新词云或者词表。本发明相对于现有技术大大减少了运算量,缩短了词云或者词表的更新时间,提升了更新的实时性。本发明可以广泛应用于数据处理技术。
技术领域
本发明涉及数据处理技术,尤其是一种文本主题提取方法、系统和存储介质。
背景技术
常规文本内容的主题词提取在自然语言处理的领域中已经具有非常成熟的解决方案,对于固定数量的文本集合,当前的数据处理技术可以提取出该文本集合的主题词。但是当文本集合的范围发生变化时,却需要经过重新训练计算,才能获取变化后的主题词。
在一些资讯应用中,后台服务器通过数据采集程序,不断地从互联网上采集不同类别的资讯,并对不同类别的资讯进行分类,然后分别对每个类别的资讯内容抽取主题词,形成每个类别的词云,但是一旦选定的类别的文本集合中有新的资讯被加入或者有旧的资讯被剔除时,该类别的词云需要根据最新的文本集合进行更新。
如果采用现有技术来实现该功能,那么需要将该类别的文本集合中的所有资讯一起进行训练,抽取新的主题词,再形成新的词云。那么意味着每当有新的资讯被加入或者有旧的资讯被剔除时都需要对历史的资讯进行计算,对计算资源造成了浪费,同时由于计算量庞大,不能做到实时更新。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种能够节省计算资源并且能够实时更新的文本主题提取方法、系统和存储介质。
本发明所采取的第一种技术方案是:
一种文本主题提取方法,包括以下步骤:
单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;
将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;
根据第一主题词集合生成词云或者词表;
当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;
当有原有的文本从当前的文本集合被删除时,将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减,然后将权重值等于0的主题词删除,得到第三主题词集合,并根据第三主题词集合更新词云或者词表。
进一步,在所述词云中权重值越大的主题词所显示的字体越大;在所述词表中权重值越大的主题词排名越前。
进一步,所述单独提取当前文本集合中每个文本的主题词集合,其具体为:
对当前文本集合中的每个文本进行以下处理:
提取文本的主题词以及主题词在该文本中的权重值;
将权重值大于设定阈值的所有主题词组成该文本的主题词集合。
进一步,所述提取文本的主题词以及主题词在该文本中的权重值,其具体为:
采用LDA模型或者TF-IDF模型提取文本的主题词以及主题词在该文本中的权重值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东蔚海数问大数据科技有限公司,未经广东蔚海数问大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811467779.2/2.html,转载请声明来源钻瓜专利网。