[发明专利]基于LDA和Bert的特定类别文本标题二分类方法有效

专利信息
申请号: 202011177997.X 申请日: 2020-10-29
公开(公告)号: CN112347247B 公开(公告)日: 2023-10-13
发明(设计)人: 吴宜真;张雅楠;严骅;刘晓涛;申富饶 申请(专利权)人: 南京大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/242;G06F40/258;G06F40/289;G06F18/241;G06N3/08
代理公司: 江苏圣典律师事务所 32237 代理人: 于瀚文;胡建华
地址: 210000 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 lda bert 特定 类别 文本 标题 分类 方法
【权利要求书】:

1.基于LDA和Bert的特定类别文本标题二分类方法,其特征在于,包括如下步骤:

步骤1,爬取得到招标网站的公告标题样本数据集A,样本数据集A中包含招标公告和非招标公告,对样本数据集A每条数据的类别信息进行标注,根据其是否属于招标公告,使用0和1来区分,0表示非招标公告,1表示招标公告;

步骤2,创建针对样本数据集A的自定义词典,自定义词典包括有用词典useful_dict和无用词典unuseful_dict;

步骤3,使用中文分词组件包jieba对样本数据集A进行分词,再使用哈工大停用词表和无用词典unuseful_dict对样本数据集A进行处理,得到去除停用词和无用词之后的标题数据集B;

步骤4,将标题数据集B输入LDA文档主题生成模型进行训练,得到每个标题数据的10个关键词,所有数据的关键词构成标题数据集C,并将训练好的LDA模型保存为结果文件LDA_model;

步骤5,使用语言表示模型Bert将标题数据集C中的每个词转换为对应的词向量,得到数据集D;

步骤6,将数据集D输入深度神经网络模型DNN中进行训练,将训练好的网络模型保存成结果文件model;

步骤7,在实际应用时,对于新的标题数据,进行分词、去除停用词和去除无用词之后,得到分词结果数据X;

步骤8,使用结果文件LDA_model,对分词结果数据X进行处理,得到对应的关键词数据KX;

步骤9,使用Bert将关键词数据KX转换为对应的词向量矩阵后,输入训练好的神经网络模型model进行处理,得到最终的分类结果Y。

2.根据权利要求1所述的方法,其特征在于,步骤3中,利用中文分词工具jieba加载有用词典useful_dict,再对样本数据集A进行分词,分词后,样本数据集A中的每单条数据都转换为对应的字符串数组;使用停用词表和无用词词典去除字符串数组中的停用词和无用词,同时,根据字符串的长度限制,将长度小于2的字符串进行删除,并去除只由数字组成的字符串,最终得到标题数据集B。

3.根据权利要求2所述的方法,其特征在于,步骤3中,对分词后的结果进行去除无用词操作的具体步骤为:循环遍历分词后得到的每一个词组并进行判断,如果该词组满足如下四个条件(1)不在停用词表中,(2)不在无用词字典中,(3)词组的长度大于1,(4)词组不为全数字字符串,则将该词组作为可用词组添加到去词后的结果数据中,最终所有样本的结果构成标题数据集B。

4.根据权利要求3所述的方法,其特征在于,步骤4中,设置LDA模型的主题数目为10,并以此为标准来训练LDA模型;训练结束后,根据主题与词组之间的关系,构造出主题-词组字典;标题数据集B中的每个训练文本能够根据LDA模型得到主题分布,再根据主题-词组字典,将主题分布中所有主题对应的词组拼接,得到对应的候选关键词列表candidate_keywords_old。

5.根据权利要求4所述的方法,其特征在于,步骤4中,利用步骤2中定义的有用词典useful_dict再次对标题数据集B进行判断,当有用词典useful_dict中的一个词在标题数据集B中原始文本里出现的次数超过3次时,便将该词作为特殊关键词special keyword添加到该文本的候选关键词列表最前端,得到新的候选关键词列表candidate_keywords_new;再以是否出现在对应原始训练文本中作为判断条件,对候选关键词进行筛选,得到最终的关键词列表,并将所有样本的关键词列表组成标题数据集C:candidate_keywords_new=special_keyword+candidate_keywords_old。

6.根据权利要求5所述的方法,其特征在于,步骤5中,所述语言表示模型Bert为预训练好的中文模型chinese_L-12_H-768_A-12,转换后的数据集D中每个数据的维度为10*768,其中10表示关键词个数,768为词向量维度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011177997.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top