[发明专利]基于LDA和Bert的特定类别文本标题二分类方法有效

申请号：	202011177997.X	申请日：	2020-10-29
公开（公告）号：	CN112347247B	公开（公告）日：	2023-10-13
发明（设计）人：	吴宜真;张雅楠;严骅;刘晓涛;申富饶	申请（专利权）人：	南京大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/242;G06F40/258;G06F40/289;G06F18/241;G06N3/08
代理公司：	江苏圣典律师事务所 32237	代理人：	于瀚文;胡建华
地址：	210000 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 lda bert 特定类别文本标题分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于LDA和Bert的特定类别文本标题二分类方法，其特征在于，包括如下步骤：

步骤1，爬取得到招标网站的公告标题样本数据集A，样本数据集A中包含招标公告和非招标公告，对样本数据集A每条数据的类别信息进行标注，根据其是否属于招标公告，使用0和1来区分，0表示非招标公告，1表示招标公告；

步骤2，创建针对样本数据集A的自定义词典，自定义词典包括有用词典useful_dict和无用词典unuseful_dict；

步骤3，使用中文分词组件包jieba对样本数据集A进行分词，再使用哈工大停用词表和无用词典unuseful_dict对样本数据集A进行处理，得到去除停用词和无用词之后的标题数据集B；

步骤4，将标题数据集B输入LDA文档主题生成模型进行训练，得到每个标题数据的10个关键词，所有数据的关键词构成标题数据集C，并将训练好的LDA模型保存为结果文件LDA_model；

步骤5，使用语言表示模型Bert将标题数据集C中的每个词转换为对应的词向量，得到数据集D；

步骤6，将数据集D输入深度神经网络模型DNN中进行训练，将训练好的网络模型保存成结果文件model；

步骤7，在实际应用时，对于新的标题数据，进行分词、去除停用词和去除无用词之后，得到分词结果数据X；

步骤8，使用结果文件LDA_model，对分词结果数据X进行处理，得到对应的关键词数据KX；

步骤9，使用Bert将关键词数据KX转换为对应的词向量矩阵后，输入训练好的神经网络模型model进行处理，得到最终的分类结果Y。

2.根据权利要求1所述的方法，其特征在于，步骤3中，利用中文分词工具jieba加载有用词典useful_dict，再对样本数据集A进行分词，分词后，样本数据集A中的每单条数据都转换为对应的字符串数组；使用停用词表和无用词词典去除字符串数组中的停用词和无用词，同时，根据字符串的长度限制，将长度小于2的字符串进行删除，并去除只由数字组成的字符串，最终得到标题数据集B。

3.根据权利要求2所述的方法，其特征在于，步骤3中，对分词后的结果进行去除无用词操作的具体步骤为：循环遍历分词后得到的每一个词组并进行判断，如果该词组满足如下四个条件(1)不在停用词表中，(2)不在无用词字典中，(3)词组的长度大于1，(4)词组不为全数字字符串，则将该词组作为可用词组添加到去词后的结果数据中，最终所有样本的结果构成标题数据集B。

4.根据权利要求3所述的方法，其特征在于，步骤4中，设置LDA模型的主题数目为10，并以此为标准来训练LDA模型；训练结束后，根据主题与词组之间的关系，构造出主题-词组字典；标题数据集B中的每个训练文本能够根据LDA模型得到主题分布，再根据主题-词组字典，将主题分布中所有主题对应的词组拼接，得到对应的候选关键词列表candidate_keywords_old。

5.根据权利要求4所述的方法，其特征在于，步骤4中，利用步骤2中定义的有用词典useful_dict再次对标题数据集B进行判断，当有用词典useful_dict中的一个词在标题数据集B中原始文本里出现的次数超过3次时，便将该词作为特殊关键词special keyword添加到该文本的候选关键词列表最前端，得到新的候选关键词列表candidate_keywords_new；再以是否出现在对应原始训练文本中作为判断条件，对候选关键词进行筛选，得到最终的关键词列表，并将所有样本的关键词列表组成标题数据集C：candidate_keywords_new＝special_keyword+candidate_keywords_old。

6.根据权利要求5所述的方法，其特征在于，步骤5中，所述语言表示模型Bert为预训练好的中文模型chinese_L-12_H-768_A-12，转换后的数据集D中每个数据的维度为10*768，其中10表示关键词个数，768为词向量维度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011177997.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种智能家居用家具板材喷漆装置
下一篇：一种减少电容阵列的逐次逼近型模数转换器及其工作方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于LDA和Bert的特定类别文本标题二分类方法有效

专利文献下载