[发明专利]一种基于语义匹配的在线法律自动问答方法及系统有效
申请号: | 202111239970.3 | 申请日: | 2021-10-25 |
公开(公告)号: | CN113918702B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 张小明;陈诚;张博;张力天;路明 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/338;G06F16/35;G06F40/126;G06F40/194;G06F40/289;G06F40/30;G06Q50/18 |
代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 许佳 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 匹配 在线 法律 自动 问答 方法 系统 | ||
1.一种基于语义匹配的在线法律自动问答方法,其特征在于,包括以下步骤:
基于若干种互联网渠道,获取法律咨询数据;
通过采集所述法律咨询数据的第一特征信息、第二特征信息,构建特征数据集,其中,所述第一特征信息用于表示提问者对法律问题的简要描述,所述第二特征信息用于表示所述法律问题所属的法律性质;
基于所述特征数据集,依据FastText文本分类算法和BertSum语义优化算法,构建用户意图识别模型,所述用户意图识别模型用于通过采集用户提出的法律咨询问题的第三特征信息,获取所述第三特征信息对应的所述法律咨询数据;
在构建特征数据集的过程中,还包括,
采集所述法律咨询数据的第四特征信息,根据所述第四特征信息的句子分隔符对所述第四特征信息进行分句,并利用贪心策略从分割后的子句中获取与所述第一特征信息相似度最高的第一子句、第二子句,其中,所述第四特征信息用于表示所述法律问题的起因、经过、结果的描述;
将所述第一子句和所述第二子句进行拼接,获得第三子句以及所述第三子句对应的第二标签;
通过将所述第二标签的第一相似度值设置为1,基于所述第三子句,构建第一数据集;
根据分割后的所述子句与所述第一特征信息的相似度,进行归一化处理,获取第二相似度值,对所述第二相似度值进行相加处理,获取相加结果为1的所述第二相似度值作为第二数据集;
根据所述第一数据集和所述第二数据集,构建所述特征数据集;
在构建用户意图识别模型的过程中,通过字向量编码、位置编码和句子分段编码的方法,对所述第一数据集和所述第二数据集进行初始化;
在模型的每个输入句子前添加[CLS]标识和每个句子后添加[SEP]标识,用于收集单句语义信息和作为分割句子的信号;
在模型输出部分,将所述[CLS]标识对应输出位置的向量编码作为所述向量编码所在句子的语义编码,用于判断所述句子是否被抽取。
2.根据权利要求1所述一种基于语义匹配的在线法律自动问答方法,其特征在于:
在构建特征数据集的过程中,采集字数范围在4-20字之间的所述第一特征信息作为所述特征数据集的特征数据,以及采集所述第二特征信息作为所述特征数据集的第一标签,构建所述特征数据集。
3.根据权利要求2所述一种基于语义匹配的在线法律自动问答方法,其特征在于:
基于所述FastText文本分类算法,提取所述第一特征信息的字粒度和词粒度,构建2-gram特征用于所述用户意图识别模型的基本输入。
4.根据权利要求1所述一种基于语义匹配的在线法律自动问答方法,其特征在于:
在对所述第一数据集和所述第二数据集进行初始化的过程中,所述字向量编码采用Word2vec静态词向量初始化,所述位置编码采用随机初始化,所述句子分段编码按句子奇偶顺序分别用0和1进行初始化。
5.根据权利要求1所述一种基于语义匹配的在线法律自动问答方法,其特征在于:
在获取所述第三特征信息对应的所述法律咨询数据的过程中,通过faiss向量检索工具,基于所述语义编码,获取所述法律咨询数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111239970.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种胶原三肽制备工艺
- 下一篇:一种内衬纸剥离分切设备