[发明专利]一种语料匹配的方法、装置、计算机设备及存储介质在审

申请号：	202210315997.4	申请日：	2022-03-28
公开（公告）号：	CN114818693A	公开（公告）日：	2022-07-29
发明（设计）人：	吴信朝;阮晓雯;陈远旭	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06N3/04
代理公司：	深圳市世联合知识产权代理有限公司 44385	代理人：	刘畅
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语料匹配方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种语料匹配的方法、装置、计算机设备及存储介质，属于人工智能技术领域。通过将专业语料输入到预先训练好的语料转化模型，得到专业语料对应的常规语料，对常规语料进行向量转化，得到第一句向量，对待匹配语料进行向量转化，得到第二句向量，计算第一句向量和第二句向量的相似度，得到句向量相似度，基于句向量相似度对待匹配语料和专业语料进行语料匹配，输出语料匹配结果。此外，本申请还涉及区块链技术，待匹配语料可存储于区块链中。本申请先通过一个语料转化模型将语料库中的专业语料转化为常规语料，再将用户的待匹配语料和常规语料进行语料匹配，提高常规口语语料的匹配成功率，丰富人机交互系统的使用场景。

技术领域

本申请属于人工智能技术领域，具体涉及一种语料匹配的方法、装置、计算机设备及存储介质。

背景技术

随着人工智能技术的飞速发展，各种各样的人机交互系统随处可见，而大多数人机交互系统应用过程中都需要进行语料匹配，以识别用户意图。例如，在智慧中医领域，机器人辅助问诊是比较常见的一种业务场景，机器人通过分析和患者“对话”内容，简单识别患者的一些基本症状，以代替人工专家收集患者信息，而在这个过程中，如何正确识别患者“对话”内容中的信息是必不可少的一环。

但是，目前大多数的人机交互系统只能完成专业语料的匹配，而对于常规的一些口语语料的匹配成功率较低，导致人机交互系统的场景局限性较大。例如，在机器人诊疗场景中，不同患者对同一个症状可能对应不同的口述表达，即使同一个患者，在不同的对话中情景下，对同一个症状都可能存在不同的口述表达，可见患者口语表述的症状信息是不规范的，而机器人难以根据患者口语表述的症状信息精准识别出患者症状类别。

发明内容

本申请实施例的目的在于提出一种语料匹配的方法、装置、计算机设备及存储介质，以解决现有智能人机交互系统仅能完成专业语料的匹配，而对于常规口语语料的匹配成功率较低，导致人机交互系统的场景局限性较大的技术问题。

为了解决上述技术问题，本申请实施例提供一种语料匹配的方法，采用了如下所述的技术方案：

一种语料匹配的方法，包括：

从预设的语料库中获取预先收集的所有专业语料；

将专业语料输入到预先训练好的语料转化模型，得到专业语料对应的常规语料；

对常规语料进行向量转化，得到第一句向量；

获取用户输入的待匹配语料，并对待匹配语料进行向量转化，得到第二句向量；

计算第一句向量和第二句向量的相似度，得到句向量相似度；

基于句向量相似度对待匹配语料和专业语料进行语料匹配，输出语料匹配结果。

进一步地，在将专业语料输入到预先训练好的语料转化模型，得到专业语料对应的常规语料的步骤之前，还包括：

从语料库中获取相互匹配的历史专业语料和历史常规语料，以构建训练语料；