[发明专利]编程环境下问答内容的提取方法、系统、电子设备及介质有效
申请号: | 202110449778.0 | 申请日: | 2021-04-25 |
公开(公告)号: | CN113076127B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 陈林;赵恒辉;李言辉 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F8/70 | 分类号: | G06F8/70;G06F16/33;G06F16/332;G06F16/34;G06F40/211;G06F40/295 |
代理公司: | 南京华鑫君辉专利代理有限公司 32544 | 代理人: | 王方超 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 编程 环境 问答 内容 提取 方法 系统 电子设备 介质 | ||
本发明公开编程环境下问答内容的提取方法、系统、电子设备及介质,所述系统包括:数据处理模块,用于执行:对输入的网络问答文本数据进行预处理,去除无用信息并进行分词;实体识别模块,用于执行:对经过所述数据处理模块处理后的文本进行软件工程领域的实体识别;文档读取模块,用于执行:将经过所述实体识别模块识别后的文本输入神经网络进行文档读取;摘要抽取模块,用于执行:利用另一个神经网络抽取出问答文本中的关键内容。本发明能将技术问答中的关键内容提取出来,减少开发人员浏览时间,提高编程现场开发效率。
技术领域
本发明涉及一种编程环境下问答内容的提取方法、系统、电子设备及介质,属于互联网技术领域。
背景技术
软件开发是一项灵活且具有挑战性的工作,开发人员需要较强的学习能力和解决问题的能力。在编程现场,开发人员遇到问题除了会查阅工具书,还经常会寻求网络帮助,询问遇到类似问题的其他开发者,借鉴他人的解决方案,避免重复劳动,提高开发效率。因此,软件问答社区逐渐活跃起来,致力于为开发人员提供一个互帮互助、记录问题的平台。
技术问答平台上活跃的开发者越来越多,他们在上面提出问题回答问题,同时也为遇到相似问题的其他开发者提供了解决问题的思路,但是并不是所有问题都能在平台得到解决,平台上存在大量的冗余信息和无关信息,会对开发者寻求帮助造成障碍。技术问答平台上的一个问题往往会对应不止一个回答,有回答跟问题不相关的情况,有回答之间重复相似的情况,也有回答内部分相关部分不相关以及部分重复的情况。针对这些情况,平台也做出了大量努力,例如Stack Overflow让用户给问题的每个回答打分,尽量让得分高的回答让更多人看到。这一定程度解决了无关信息的干扰,但还是存在相当大的局限性。如果将同一个问题下的所有回答当作是一篇文档,对所有回答进行摘要抽取,标出关键内容,可以起到类似“高亮”的作用,帮助用户减少浏览时间,提高编程现场的开发效率。
文本摘要技术可以将文本或者文本集合转化为包含关键信息的简短摘要。文本摘要按输出类型可分为抽取式摘要和生成式摘要,抽取式摘要是从原文本中直接提取出若干个句子,并将它们进行排序和重组形成的摘要。将抽取式摘要应用到技术问答社区,可以将回答中的关键内容提取出来,帮助开发者迅速定位到想要的答案内容。
近些年,学者们针对摘要抽取提出了许多的方法。Julian Kupiec等人提出可以把摘要抽取当做经典的分类问题,给定一系列训练文档数据和人工抽取的摘要结果,训练得到一个分类器,得到给定句子可以被纳入摘要的概率;Conroy和O’Leary提出用隐马尔可夫模型来进行摘要抽取,并取得了与当时其他模型相比最好的效果;Erkanand提出基于图的算法LexPageRank,当两句话的余弦相似度超过某个阈值,就在连接矩阵中加入一条相应的边,进而通过连接矩阵来计算句子的重要性;Woodsend等人提出了一个联合内容选择和压缩的模型来进行文档摘要,该模型利用整数线性规划,根据长度、覆盖范围和语法约束来选择和组合词语构成摘要;Kageback等人通过连续向量空间表示来计算句子之间的相似性,并利用递归自动编码器对文档进行摘要抽取;Yin等人通过卷积神经网络(CNN)将句子投射到连续向量空间,基于“威望”和“多样性”,最小化代价,抽取出合适的句子,在多文档抽取式摘要任务中取得了不错的效果;Cao等人同样利用CNN,解决了面向查询的多文档摘要问题,他们在句子表示基础上利用加权的sum-pooling来表示文档,权重是基于查询从句子表示的注意力机制中学习得到的;Cheng等人提出了一种基于分层文档编码器和注意力机制的自动摘要框架,可以在不借助语言标注的情况下得到相当不错的摘要抽取效果。然而,目前的摘要抽取工作都是针对通用领域的,还没有学者针对软件工程领域的摘要抽取提出过技术和方法。
发明内容
本发明的第一个目的是提供一种编程现场技术问答关键内容自动提取系统,能将技术问答中的关键内容提取出来,减少开发人员浏览时间,提高编程现场开发效率。本发明的第二个目的是提供一种编程现场技术问答关键内容自动提取方法。
本发明具体采用如下技术方案:编程环境下问答内容的提取系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110449778.0/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法