[发明专利]一种基于深度学习的单句摘要缺陷报告标题自动生成方法在审
申请号: | 202010667056.8 | 申请日: | 2020-07-13 |
公开(公告)号: | CN111898337A | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 谢晓园;陈崧强;姬渊翔;晋硕;尹邦国 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/258;G06F40/289;G06N3/04;G06N3/08;G06F16/34 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 许莲英 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 单句 摘要 缺陷 报告 标题 自动 生成 方法 | ||
本发明提出了一种基于深度学习的单句摘要缺陷报告标题自动生成方法。本发明获取开源缺陷报告样本作为原始数据集,构建三个判别模型对原始数据集中样本进行评估,选择合格样本构建正式数据集;引入多种人工命名词汇类型并构建对应正则表达式用于提取和定位正式数据集样本主体内容中的人工命名词汇,在每个人工命名词汇前后插入类型标记,并分别对样本的标题和插入标记后的主体内容进行分词和小写化处理构建训练数据集;搭建带复制机制的编解码循环神经网络模型,在训练数据集上训练获得优化后的模型;向优化后的模型输入待拟定标题的缺陷报告主体内容,模型即可自动生成对应标题。本发明提高了用户撰写标题的质量和效率。
技术领域
本发明涉及计算机技术领域,具体涉及一种基于深度学习的单句摘要缺陷报告标题自动生成方法。
背景技术
软件缺陷报告在软件开发中起着至关重要的作用,被大量软件仓库收录。包含高质量内容的缺陷报告有助于软件缺陷的理解、重现、定位和修复。作为软件缺陷报告的必填内容之一,高质量的缺陷报告标题可传递缺陷报告具体情况细节的核心思想,帮助项目维护人员快速理解该缺陷报告,从而更有效地为其分配适当的标签,设置优先级,或制定合适的缺陷分流策略。然而,由于水平不一致、撰写时间受限等原因,从业过程中人工撰写的缺陷报告标题的质量难以得到保障。
目前软件开发生产过程中常用的一种方法是:为缺陷报告标题提供格式说明,例如要求缺陷报告标题包含正确的关键信息、描述凝练,指导缺陷报告作者在撰写的缺陷报告中以清晰易读的形式提供有效信息。
现有技术方法仍然依赖于缺陷报告作者本身的能力和对要求的执行情况。对于撰写时间紧迫所造成的临时标题、作者撰写水平有限而无法以准确凝练的形式描述缺陷所造成的低质量标题等情况无显著缓解作用。
针对上述效果不足,一种可行的改进是为缺陷报告自动生成标题,主动地为缺陷报告自动生成高质量标题,作为用户撰写参考或低质量标题的替代。随着基于深度学习技术的摘要方法的不断演化,使用深度学习技术设计监督学习方法以自动生成简洁凝练的抽象摘要作为标题在新闻标题生成等领域已有一定的应用。
关于将现有基于深度学习的摘要生成方法应用于缺陷报告标题自动生成任务,存在如下技术问题:
无现成高质量数据集,且开源渠道获取的数据质量不一无法直接作为数据集使用。基于大数据进行学习的神经网络模型始终需要符合任务要求的高质量的数据样本进行训练,否则模型训练过程中可能会出现训练效率低下或学习方向错误等问题。直接从开源社区渠道获取、未经筛选的数据集中可能包含大量存在标题质量不佳、形式非单句摘要等无效缺陷报告样本,无法直接作为训练数据集使用。
无法有效处理词频较低的人工命名词汇,人工命名词汇例如标识符、版本号等人工命名词汇往往特定于缺陷报告和所属的软件仓库,不同的项目中通常包含不同的人工命名词汇,因而缺陷报告中具有无法穷尽的人工命名词汇拼写形式,而每个人工命名词汇的词频又相对较低。然而,由于神经摘要模型需要通过不断反复调整词嵌入向量等记录在模型的固定词例表中的词例的相关参数来学习、理解和生成目标词例,语料中的低频词汇通常无法被很好地被模型处理。人工命名词汇在本任务中非常常见,且通常带有关于缺陷报告的关键信息,如故障对象、环境等内容。在缺陷报告标题生成过程中,这些人工命名词汇不应该被忽视,或是简单地将其统一为未知标记词汇进行处理。
发明内容
有鉴于此,本发明提供了一种基于深度学习的单句摘要缺陷报告标题自动生成方法,解决现有技术中的方法存在的问题,提供了一个专门针对于高质量缺陷报告标题自动生成的专用方法。
本发明提供了一种基于深度学习的单句摘要缺陷报告标题自动生成方法,包括:
步骤1:从开源渠道获取海量缺陷报告样本作为原始数据集,分别构建第一判别模型、第二判别模型、第三判别模型,将原始数据集中每个缺陷报告样本根据根据第一判别模型、第二判别模型、第三判别模型依次进行数据筛选得到正式数据集中每个样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010667056.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于双师教学的运动训练系统及其方法
- 下一篇:一种自动进出料的在线打包机