[发明专利]一种使用LDA的文本分类筛选方法在审
申请号: | 202011123125.5 | 申请日: | 2020-10-20 |
公开(公告)号: | CN112667806A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 赵博;吕建文;周兴晖;陈力;薛柔月;金鑫;蒋尚秀 | 申请(专利权)人: | 上海金桥信息股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F16/31;G06F40/211;G06F40/216;G06F40/242;G06F40/30;G06K9/62;G06N20/00 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 张乾桢 |
地址: | 200234 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 lda 文本 分类 筛选 方法 | ||
1.一种使用LDA的文本分类筛选方法,其特征在于,包括如下步骤:
(1)获取一个数据集,内容包括多个短句;
(2)使用自然语言处理方法,对数据进行预处理,以及进行清洗和整理;
(3)确定一个主题,人工选择若干符合主题的文本句子;
(4)用所述选择的文本句子,使用词袋模型建立对应文本向量矩阵;
(5)用所述向量矩阵去训练第一LDA模型;
(6)用所述第一LDA模型筛选文本中剩余的句子,计算该文本集合与第一LDA主题计算所得到的多个话题词之间的相关性,并以此作为评价一个句子是否满足选定主题模型的阈值;
(7)加入通过话题相关性筛选的文本,再训练第二LDA模型;
(8)用所述第二LDA模型,对文本中剩余的句子再用余弦相似去判断和筛选;
(9)将人工筛选、主题相似筛选,余弦相似筛选总共三次筛选的句子作为符合筛选目标的文本数据。
2.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤2中,对于数据进行预处理包括:
选择大于10个单词的句子;去除标点符号,去除错误编码,去除非英语和数字的其他字符;修复语法问题,修复单词拼写错误,修复口语化词汇;修复空格和缩进问题;修复异常字符;所述的清洗和整理包括使用词袋模型进行粗清洗,选择主题权重高的文本句子。
3.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤3中,人工选择若干符合主题的文本句子包括:
对于重复的句子应仅保留一项,对于描述同一件事物的句子,当句子的过半的单词是相同时,即认为是重复性的;
缩写和简略的内容应当被扩展,对于在使用口语进行表达时会给出某些缩写的表示,需要人工发现,并替换。
4.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤3中,对于准备好要筛选的数据集,每个文档单独一行,从中人工挑选800到1000条词句通顺,符合所选主题要求的文本;使用挑选出来的文本,对每一个单词建立字典及索引。
5.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤4中,将每一条文本利用词袋模型进行向量化处理,该模型将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的,不依赖于其它单词是否出现,而后利用向量化数据,计算生成词频矩阵,即文档主题(DT)矩阵。
6.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤5中,设定文档要分类的主题数量,利用DT矩阵训练第一LDA模型:首先由狄立克雷分布得到话题分布的参数的分布,然后随机生成一个文本的话题分布,之后在该文本的每个位置,依据该文本的话题分布随机生成一个话题;然后由狄利克雷分布得到单词分布的参数的分布,再得到话题的单词分布,在该位置依据该话题的单词分布随机生成一个单词,直到文本的最后一个位置,生成整个文本;最后重复以上过程,生成所有的文本。
7.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤6中,对于没有挑选的文本,使用训练好的第一LDA模型进行主题判断,模型会给出其属于某一主题的概率;如果某一对句子在LDA的判断下,属于某一主题的概率最高,并且这个值超过某一设定好的阈值,则将这一条文本挑选出来。
8.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤7中,利用之前人工挑选的和第一LDA模型挑选的文本组成一个新的数据集,重新训练第二LDA模型。
9.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤8中,对于剩下的所有文本,利用第二LDA模型和之前挑选的语料进行余弦相似度检测,如果某一条文本和挑选的具有最高相似度的某一条文本的相似值高于设定的阈值,则将这一条文本挑选出来。
10.根据权利要求1所述的一种使用LDA的文本分类筛选方法,其特征在于,所述步骤9中,分别通过人工选择,LDA主题选择,余弦相似度选择,总共三次选择,从而按选定的分类标准筛选需要的文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海金桥信息股份有限公司,未经上海金桥信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011123125.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于菌类采摘孢子防混杂杂菌的工艺
- 下一篇:一种吸油烟机