[发明专利]一种文本主题提取方法、系统和存储介质在审
申请号: | 201811467779.2 | 申请日: | 2018-12-03 |
公开(公告)号: | CN109783616A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 赵淦森;林成创;列海权;纪求华;赵淑娴;陈冰川;李振宇;邓水凤;朱俊杰;冯梦珂;颜志鸿;孙元基;欧小梅;刘秋敏;黄伟雄 | 申请(专利权)人: | 广东蔚海数问大数据科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F17/27 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 胡辉 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集合 词表 文本 存储介质 文本集合 文本主题 更新 并集 权重 删除 数据处理技术 单独提取 集合生成 实时性 运算量 减去 应用 | ||
1.一种文本主题提取方法,其特征在于:包括以下步骤:
单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;
将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;
根据第一主题词集合生成词云或者词表;
当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;
当有原有的文本从当前的文本集合被删除时,将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减,然后将权重值等于0的主题词删除,得到第三主题词集合,并根据第三主题词集合更新词云或者词表。
2.根据权利要求1所述的一种文本主题提取方法,其特征在于:在所述词云中权重值越大的主题词所显示的字体越大;在所述词表中权重值越大的主题词排名越前。
3.根据权利要求1所述的一种文本主题提取方法,其特征在于:所述单独提取当前文本集合中每个文本的主题词集合,其具体为:
对当前文本集合中的每个文本进行以下处理:
提取文本的主题词以及主题词在该文本中的权重值;
将权重值大于设定阈值的所有主题词组成该文本的主题词集合。
4.根据权利要求3所述的一种文本主题提取方法,其特征在于:所述提取文本的主题词以及主题词在该文本中的权重值,其具体为:
采用LDA模型或者TF-IDF模型提取文本的主题词以及主题词在该文本中的权重值。
5.一种文本主题提取系统,其特征在于:包括:
提取模块,用于单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;
合并操作模块,用于将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;
生成模块,用于根据第一主题词集合生成词云或者词表;
更新模块,用于当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;
以及用于当有原有的文本从当前的文本集合被删除时,将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减,然后将权重值等于0的主题词删除,得到第三主题词集合,并根据第三主题词集合更新词云或者词表。
6.根据权利要求5所述的一种文本主题提取系统,其特征在于:在所述词云中权重值越大的主题词所显示的字体越大;在所述词表中权重值越大的主题词排名越前。
7.根据权利要求5所述的一种文本主题提取系统,其特征在于:所述单独提取当前文本集合中每个文本的主题词集合,其具体为:
对当前文本集合中的每个文本进行以下处理:
提取文本的主题词以及主题词在该文本中的权重值;
将权重值大于设定阈值的所有主题词组成该文本的主题词集合。
8.根据权利要求7所述的一种文本主题提取系统,其特征在于:所述提取文本的主题词以及主题词在该文本中的权重值,其具体为:
采用LDA模型或者TF-IDF模型提取文本的主题词以及主题词在该文本中的权重值。
9.一种文本主题提取系统,其特征在于:包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行如权利要求1-4任一项所述的方法。
10.一种存储介质,其存储有程序,其特征在于:所述程序被处理器执行时,实现如权利要求1-4任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东蔚海数问大数据科技有限公司,未经广东蔚海数问大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811467779.2/1.html,转载请声明来源钻瓜专利网。