[发明专利]一种法律提问自动生成方法及系统有效
申请号: | 202110514787.3 | 申请日: | 2021-05-12 |
公开(公告)号: | CN113220853B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 冯建周;龙景;韩春龙;邵文彪 | 申请(专利权)人: | 燕山大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/34;G06F16/35;G06K9/62 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 韩雪梅 |
地址: | 066000 河北省*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 法律 提问 自动 生成 方法 系统 | ||
本发明涉及一种法律提问自动生成方法及系统,首先构建特定场景下的法律问题集;所述法律问题集包括n个问题;其次基于语义相近原则,将法律问题集进行文本聚类,获得m类;然后将各类中多个问题的重要度相加求和,获得问题重要度总和;最后采用文本摘要算法,将从问题重要度总和最高的K类中选取设定数量的待融合问题输入至预训练语言微调模型分别进行融合,自动转换为问句形式,并向用户提出K个问题。本发明在法律咨询过程中,不再通过逐一抛出单个问题来进行询问,而是将多个语义相近的问题进行融合凝练,形成高概况度的融合问题,再进行多个问题同时提问,以便在每轮对话中能够获得更多地信息,缩短对话流程,加快工作效率提升用户体验。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种法律提问自动生成方法及系统。
背景技术
现有的法律咨询系统多数是针对特定场景设计大量的问题,依次向用户提问,根据用户的回答进行分支判断,最终得到咨询结果。但这种咨询系统的咨询流程繁琐单一,只能将单个问题逐一抛出,影响工作效率和用户体验。
发明内容
本发明的目的是提供一种法律提问自动生成方法及系统,以实现同时提出K个问题,提高工作效率和用户体验。
为实现上述目的,本发明提供了一种法律提问自动生成方法,所述方法包括:
构建特定场景下的法律问题集;所述法律问题集包括n个问题,n为大于2的正整数;
基于语义相近原则,将所述法律问题集进行文本聚类,获得m类;每一类中包括至少一个问题;
将各类中多个问题的重要度相加求和,获得问题重要度总和;
采用文本摘要算法,将从问题重要度总和最高的K类中选取设定数量的待融合问题输入至预训练语言微调模型分别进行融合,自动转换为问句形式,并向用户提出K个问题;将各类中问题数量大于1的问题称为待融合问题。
可选地,所述基于语义相近原则,将所述法律问题集进行文本聚类,获得m类,具体包括:
将所述法律问题集中多个法律问题转换为各法律问题对应的向量,构建向量集;
采用余弦相似度法计算所述向量集中任意两个向量之间的距离;
将每个向量作为一类,初始共n类;
采用凝聚层次聚类算法,将距离最小的两个向量合并为一类;
判断总类数是否小于或等于目标类数m;如果总类数小于或等于目标类数,则输出各类别构成类别集合;如果总类数大于目标类数,则返回“采用凝聚层次聚类算法,将距离最小的两个向量合并为一类”,所述类别集合包括m类。
可选地,所述采用文本摘要算法,将从问题重要度总和最高的K类中选取设定数量的待融合问题输入至预训练语言微调模型分别进行融合,自动转换为问句形式,并向用户提出K个问题,具体包括:
将各所述待融合问题的开头插入标记,并使用间隔段区分输入的多个待融合问题,获得问题序列向量;
将所述问题序列向量输入预训练语言微调模型中的编码器进行编码,获得编码序列;
通过深度神经网络和多头注意力机制对所述编码序列进行特征提取,获得特征提取序列;
将所述特征提取序列输入预训练语言微调模型中的解码器进行文字还原,获得初始问题;
将所述初始问题自动转换为问句形式,并向用户提出K个问题。
可选地,在所述将各所述待融合问题的开头插入标记,并使用间隔段区分输入的多个待融合问题,获得问题序列向量步骤之前还包括:
获取训练数据集;所述训练数据集包括多个经过数据格式处理的问题;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110514787.3/2.html,转载请声明来源钻瓜专利网。