[发明专利]一种面向群智的问题及解决方案自动提取方法及相应存储介质与电子装置在审
申请号: | 202210002150.0 | 申请日: | 2022-01-04 |
公开(公告)号: | CN114398905A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 石琳;江子攸;王青 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/289;G06F40/216;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 问题 解决方案 自动 提取 方法 相应 存储 介质 电子 装置 | ||
1.一种面向群智的问题及解决方案自动提取方法,其特征在于,包括以下步骤:
解耦实时聊天日志的对话,将时间顺序排列的线性文本分解为独立的对话;
采用“问题-解决方案”预测网络,从分解后的对话中提取问题及解决方案,利用提取的问题及解决方案构建语问题及解决方案知识库。
2.根据权利要求1所述的方法,其特征在于,所述解耦实时聊天日志的对话,包括通过文本分析进行数据预处理和使用对话解耦模型拆分对话。
3.根据权利要求1所述的方法,其特征在于,所述数据预处理包括:
1)利用爬虫于在线平台文本中抓取线性文本数据,通过聊天平台收集一定时长的聊天记录;
2)将对话进行分词,使用特定的符号来替换低频词,减少干扰;
3)将词汇文本中的表情符号替换为标准的正则字符串;
4)使用百度人工智能云,利用困惑度指标计算相邻句子的连贯度,将困惑度低于设定的阈值的相邻句子合并为一个新的语句。
4.根据权利要求1所述的方法,其特征在于,所述对话解耦模型选用包含2层、512维隐层向量的线性前馈神经网络。
5.根据权利要求1所述的方法,其特征在于,所述“问题-解决方案”预测网络包含语句编码层、上下文相关的语句编码层和输出层。
6.根据权利要求5所述的方法,其特征在于,所述语句编码层包括:
1)用于编码语句的BERT模型,该模型在文本上进行预训练,并在解耦后的对话数据上进行微调;
2)用于上下文编码的三元组,将对应语句和上下文的k个近邻语句编码汇总为一个独立的窗口向量,并用于后续的对话编码。
7.根据权利要求5所述的方法,其特征在于,所述上下文相关的语句编码层使用三个特征抽取器来抽取含有对话上下文信息和语句本身特征信息的编码,所述三个特征抽取器包括:
1)基于卷积网络的文本特征抽取器,利用三层卷积和最大池化层,在保持语句语义的同时,降维原有的语句编码;
2)基于属性的启发式特征抽取器,包含关键词、结构、主题、情感和角色的启发式特征编码,用以提取语句高层次的语义信息;
3)基于三元组的上下文特征抽取器,利用局部注意力机制获取权重编码,用以捕获上下文的语义信息。
8.根据权利要求5所述的方法,其特征在于,所述输出层使用拼接的文本特征向量、启发式特征向量和上下文特征向量,使用两个全连接层分别预测是否为问题和解决方案。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序执行权利要求1-8中任一权利要求所述的方法。
10.一种电子装置,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-8中任一权利要求所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210002150.0/1.html,转载请声明来源钻瓜专利网。