[发明专利]一种基于深度学习的单句摘要缺陷报告标题自动生成方法在审
申请号: | 202010667056.8 | 申请日: | 2020-07-13 |
公开(公告)号: | CN111898337A | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 谢晓园;陈崧强;姬渊翔;晋硕;尹邦国 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/258;G06F40/289;G06N3/04;G06N3/08;G06F16/34 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 许莲英 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 单句 摘要 缺陷 报告 标题 自动 生成 方法 | ||
1.一种基于深度学习的单句摘要缺陷报告标题自动生成方法,其特征在于,包括以下步骤:
步骤1:从开源渠道获取海量缺陷报告样本作为原始数据集,分别构建第一判别模型、第二判别模型、第三判别模型,将原始数据集中每个缺陷报告样本根据根据第一判别模型、第二判别模型、第三判别模型依次进行数据筛选得到正式数据集中每个样本;
步骤2:引入多种人工命名词汇类型并构建每种人工命名词汇类型对应正则表达式,依次使用正则表达式提取正式数据集中缺陷报告样本的主体内容所属人工命名词汇类型以构建人工命名词汇集,将每种人工命名词汇类型分配对应的类型辅助词汇,依次在正式数据集中缺陷报告样本的主体内容中定位人工命名词汇集的每个词汇,进行插入标记得到缺陷报告样本插入标记后的主体内容,分别对缺陷报告样本的标题以及缺陷报告样本插入标记后的主体内容进一步进行分词处理、小写化处理构建深度学习模型训练数据集;
步骤3:搭建带复制机制的编解码循环神经网络模型,构建基于负对数似然损失函数模型,进一步在深度学习模型训练数据集上训练以构建优化后带复制机制的编解码循环神经网络模型;
步骤4:向优化后带复制机制的编解码循环神经网络模型输入已标记、分词、小写化的缺陷报告主体内容,通过优化后带复制机制的编解码循环神经网络模型对输入进行预测,得到结果即为模型为输入的缺陷报告主体内容所自动生成的标题。
2.根据权利要求1所述的基于深度学习的单句摘要缺陷报告标题自动生成方法,其特征在于:
步骤1所述从开源渠道获取海量缺陷报告样本作为原始数据集为:
所述原始数据集中的每个样本为:
si=(bi,ti),i∈[1,M]
其中,bi为原始数据集中第i个缺陷报告样本的主体内容,ti为原始数据集中第i个缺陷报告样本的的内容标题,M为原始数据集中缺陷报告样本数量;
步骤1所述构建第一判别模型为:
对于第i个样本si=(bi,ti),i∈[1,M],使用链接正则表达式匹配ti中的所有链接并将链接数量记为使用单词正则表达式匹配ti中的所有单词并将单词数量记为
若(其中Lmin和Lmax分别是可设置的长度最长/最短阈值参数)三个条件中至少有一个成立,则ti被认为质量不符合要求,si将被筛去;
步骤1所述构建第二判别模型为:
对于第i个样本si=(bi,ti),i∈[1,M],使用单词正则表达式匹配ti中的所有单词,记在ti中匹配识别到的单词数量为ti中的单词序列为使用单词正则表达式统计bi中的所有单词,记在bi中匹配识别到的单词数量为bi中的单词序列为
统计同时存在于Ti与Bi中的单词,并记其数量为
检查与的大小关系,若(其中θrule2为可配置的词汇重复比例阈值参数),则ti与bi被认为非摘要与细节的关系;由于该情况不符合摘要式标题生成的样本要求,si将被筛去;
步骤1所述构建第三判别模型为:
对于第i个样本si=(bi,ti),i∈[1,M],记ti的长度为
构建匹配ti词序列子串的正则表达式
使用在bi中匹配所有是ti词序列子串的字符串,记匹配的结果为其中为结果个数,为在bi中进行匹配到的字符串;
对于每一条匹配到的字符串统计的词数并记为
检查每个与的大小关系,若存在任意一个(其中θrule3为可配置的子串重复比例阈值参数),则ti被认为是直接摘抄bi中原句的情况;由于该情况不符合摘要式标题生成的样本要求,si将被筛去;
步骤1所述将原始数据集中每个缺陷报告样本根据根据第一判别模型、第二判别模型、第三判别模型依次进行数据筛选为:
若si可通过所有三个判别模型的检测,则将si纳入正式数据集;
步骤1所述所述正式数据集中每个样本为:
其中,为正式数据集中第j个缺陷报告样本的主体内容,为对应的标题,M*为正式数据集中缺陷报告样本数量且M*≤M。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010667056.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于双师教学的运动训练系统及其方法
- 下一篇:一种自动进出料的在线打包机