[发明专利]一种面向群智的问题及解决方案自动提取方法及相应存储介质与电子装置在审
申请号: | 202210002150.0 | 申请日: | 2022-01-04 |
公开(公告)号: | CN114398905A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 石琳;江子攸;王青 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/289;G06F40/216;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 问题 解决方案 自动 提取 方法 相应 存储 介质 电子 装置 | ||
本发明提出一种面向群智的问题及解决方案自动提取方法及相应存储介质与电子装置。该方法基于一种定制增强的自然语言处理深度学习技术。具体来说,该技术包含两个基本任务:1)解耦实时聊天日志的对话,使用数据预处理技术和候选的前馈神经网络自动将时间顺序排列的线性文本分解为独立的对话;2)使用一种新的“问题‑解决方案”预测网络提取问题及解决方案,该网络包含语句编码层、上下文相关的语句编码层和输出层,进而构建语料库中的问题解决方案知识库。本发明不需要构建复杂的规则集进行抽取,能够实现“问题‑解决方案”的全自动化推荐,实验证明了群智模型可以促进知识共享和提升问题解决效率,从而促进基于聊天社区的软件开发。
技术领域
本发明属于计算机技术领域,尤其涉及一种面向群智的问题及解决方案自动提取方法及相应存储介质与电子装置。
背景技术
随着在线聊天平台的不断发展,与电子邮件或论坛等异步交流方式相比,通过实时聊天进行同步交流,可以让开发人员更高效地寻求信息和技术支持,分享意见和想法,讨论开发过程中的问题。因此,实时聊天已经成为大多数软件开发过程中不可或缺的组成部分,不仅对于组成全球分布式开发人员的开源社区,而且对于软件公司来说,在线聊天有助于内部团队沟通和协调,特别是在适应COVID-19大流行带来的远程工作。利用实时聊天平台可以解决软件开发中存在的多个种类的问题,例如安装和设置、bug解决、构建和编译等。开发人员会提出与某些特定问题相关的问题,并依赖其他人的回答提供潜在的解决方案。
自动化的“问题-解决方案”抽取技术已经有了广泛的研究,例如基于SVM的Casper方法,基于规则集合的DECA,基于CNN网络的CNC,以及上下文分类器的UIT等等。然而这些方法均没有分析挖掘实时聊天中的以下三个挑战:(1)耦合的对话。实时聊天数据是非常庞大的,并且针对不同问题的多个并发讨论经常以交错的方式存在;(2)昂贵的人工成本。聊天日志通常是大量包含非正式的对话,涉及广泛的技术和复杂的话题;(3)噪声数据。在聊天日志中存在重复和不可读的消息,这些消息不能提供有价值的信息。这些问题影响了抽取的准确率和效率,不利于在工业界被广泛推广和应用。
发明内容
针对上述问题,本发明提出的面向群智的问题及解决方案自动提取技术,目的在于从复杂的社区实时聊天文本中,通过自然语言处理、信息抽取的技术来自动地提取大量的“问题-解决方案”对,从而扩充开发过程中存在的疑难问题知识库,以达到在在线问答平台上的根据历史经验自动推荐解决方案的目的。
本发明的一种面向群智的问题及解决方案自动提取方法,其步骤包括:
解耦实时聊天日志的对话,将时间顺序排列的线性文本分解为独立的对话;
使用一种新的“问题-解决方案”预测网络,从分解后的对话中提取问题及解决方案,利用提取的问题及解决方案构建语料库中的问题及解决方案知识库。
进一步地,所述解耦实时聊天日志的对话,其步骤包括通过文本分析进行数据预处理和使用对话解耦模型拆分对话。
进一步地,所述数据预处理,其步骤包括:
1)利用爬虫于在线平台文本中抓取线性文本数据,通过Gitter这类以项目为划分,时序为组织的聊天平台,收集一定时长的聊天记录;
2)将对话进行分词,使用特定的符号来替换低频词,减少干扰;
3)将词汇文本中的表情符号替换为标准的正则字符串;
4)使用百度人工智能云(Baidu AI Cloud),利用困惑度指标计算相邻句子的连贯度,将困惑度低于设定的阈值(如40)的相邻句子合并为一个新的语句。
进一步地,所述对话解耦模型选用了包含2层、512维隐层向量的线性前馈神经网络,该网络在样本量为77563的在线聊天对话解耦数据集上测试效果最优,可以达到74.9%的准确率和79.7%的召回率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210002150.0/2.html,转载请声明来源钻瓜专利网。