[发明专利]基于LDA和Bert的特定类别文本标题二分类方法有效
申请号: | 202011177997.X | 申请日: | 2020-10-29 |
公开(公告)号: | CN112347247B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 吴宜真;张雅楠;严骅;刘晓涛;申富饶 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/258;G06F40/289;G06F18/241;G06N3/08 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 于瀚文;胡建华 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lda bert 特定 类别 文本 标题 分类 方法 | ||
1.基于LDA和Bert的特定类别文本标题二分类方法,其特征在于,包括如下步骤:
步骤1,爬取得到招标网站的公告标题样本数据集A,样本数据集A中包含招标公告和非招标公告,对样本数据集A每条数据的类别信息进行标注,根据其是否属于招标公告,使用0和1来区分,0表示非招标公告,1表示招标公告;
步骤2,创建针对样本数据集A的自定义词典,自定义词典包括有用词典useful_dict和无用词典unuseful_dict;
步骤3,使用中文分词组件包jieba对样本数据集A进行分词,再使用哈工大停用词表和无用词典unuseful_dict对样本数据集A进行处理,得到去除停用词和无用词之后的标题数据集B;
步骤4,将标题数据集B输入LDA文档主题生成模型进行训练,得到每个标题数据的10个关键词,所有数据的关键词构成标题数据集C,并将训练好的LDA模型保存为结果文件LDA_model;
步骤5,使用语言表示模型Bert将标题数据集C中的每个词转换为对应的词向量,得到数据集D;
步骤6,将数据集D输入深度神经网络模型DNN中进行训练,将训练好的网络模型保存成结果文件model;
步骤7,在实际应用时,对于新的标题数据,进行分词、去除停用词和去除无用词之后,得到分词结果数据X;
步骤8,使用结果文件LDA_model,对分词结果数据X进行处理,得到对应的关键词数据KX;
步骤9,使用Bert将关键词数据KX转换为对应的词向量矩阵后,输入训练好的神经网络模型model进行处理,得到最终的分类结果Y。
2.根据权利要求1所述的方法,其特征在于,步骤3中,利用中文分词工具jieba加载有用词典useful_dict,再对样本数据集A进行分词,分词后,样本数据集A中的每单条数据都转换为对应的字符串数组;使用停用词表和无用词词典去除字符串数组中的停用词和无用词,同时,根据字符串的长度限制,将长度小于2的字符串进行删除,并去除只由数字组成的字符串,最终得到标题数据集B。
3.根据权利要求2所述的方法,其特征在于,步骤3中,对分词后的结果进行去除无用词操作的具体步骤为:循环遍历分词后得到的每一个词组并进行判断,如果该词组满足如下四个条件(1)不在停用词表中,(2)不在无用词字典中,(3)词组的长度大于1,(4)词组不为全数字字符串,则将该词组作为可用词组添加到去词后的结果数据中,最终所有样本的结果构成标题数据集B。
4.根据权利要求3所述的方法,其特征在于,步骤4中,设置LDA模型的主题数目为10,并以此为标准来训练LDA模型;训练结束后,根据主题与词组之间的关系,构造出主题-词组字典;标题数据集B中的每个训练文本能够根据LDA模型得到主题分布,再根据主题-词组字典,将主题分布中所有主题对应的词组拼接,得到对应的候选关键词列表candidate_keywords_old。
5.根据权利要求4所述的方法,其特征在于,步骤4中,利用步骤2中定义的有用词典useful_dict再次对标题数据集B进行判断,当有用词典useful_dict中的一个词在标题数据集B中原始文本里出现的次数超过3次时,便将该词作为特殊关键词special keyword添加到该文本的候选关键词列表最前端,得到新的候选关键词列表candidate_keywords_new;再以是否出现在对应原始训练文本中作为判断条件,对候选关键词进行筛选,得到最终的关键词列表,并将所有样本的关键词列表组成标题数据集C:candidate_keywords_new=special_keyword+candidate_keywords_old。
6.根据权利要求5所述的方法,其特征在于,步骤5中,所述语言表示模型Bert为预训练好的中文模型chinese_L-12_H-768_A-12,转换后的数据集D中每个数据的维度为10*768,其中10表示关键词个数,768为词向量维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011177997.X/1.html,转载请声明来源钻瓜专利网。