[发明专利]语义确定方法有效
申请号: | 202110398762.1 | 申请日: | 2021-04-14 |
公开(公告)号: | CN112800777B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 王光勇;姜巍;李乘风;于游;赵永强;廖望梅;张姗姗 | 申请(专利权)人: | 北京育学园健康管理中心有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06N3/04 |
代理公司: | 北京绘聚高科知识产权代理事务所(普通合伙) 11832 | 代理人: | 汪帆 |
地址: | 100000 北京市朝阳区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 确定 方法 | ||
本发明实施例提供一种语义确定方法,本申请实施例通过获取待确定语义的语句;从预先处理好的语料中训练多任务的孪生网络模型,通过训练好的模型获得对应语料的所有句向量。从训练好的模型中提取出所述语句对应的句向量,计算所有句向量与所述语句向量之间的向量差值是否处于预设差值范围内,将符合预设条件的多个句向量的相似度进行排序,将相似度最高的句向量作为所述语句对应匹配的语义,进而匹配到具体的语句,采用这种方法避免了使用单一任务造成的欠拟合,以至输出结果的精确度低的问题。
技术领域
本发明属于母婴智能人工分析领域,尤其涉及一种语义确定方法。
背景技术
近年来,随着人工智能领域尤其是深度学习的快速发展,自然语言处理在人类的学习工作与生活中发挥着越来越重要的作用。智能问答的出现使得一大批应用或服务涌现出来,如百度的小度,阿里的天猫精灵,小米的小爱同学,苹果的Siri,微软的小冰等设备系统。
在现有技术中,问答型机器人的技术路线为将句子映射为句向量,再通过计算句向量的余弦相似度得到分值最高的句子,再将其对应的答案给用户。但是由于中文句子的语法结构的复杂多变,语义语境的多异性等因素,导致模型在线上的效果评估很差,给用户带来了不好的体验;尤其是在母婴领域使用的问答型机器人,如果不能充分理解中文语法结构的复杂性以及多异性,其不能准确输出计算结果,将会导致模型在线上的效果评估很差,将会对用户体验造成很大的困扰。
发明内容
为了解决上述现有技术中但是由于中文句子的语法结构的复杂多变,语义语境的多异性等因素,导致模型在线上的效果评估很差,给用户带来了不好的体验的技术问题,本申请提供了一种语义确定方法。
第一方面,本发明提供了一种语义确定方法,所述方法包括:
获取待确定语义的语句C;
将所述语句输入预设的孪生网络模型中,得到语句C的特征向量,其中所述孪生网络模型用于将语句向量化;
从向量库中确定与语句C的特征向量相似度最高的相似向量;
将与所述相似向量对应的标准语句确定为与所述语句对应的语义。
进一步地,所述孪生网络模型包括网络结构第一分支、网络结构第二分支、主分类任务、第一分支辅助任务和第二分支辅助任务,所述孪生网络模型的训练过程包括:
从预设的训练语料中获取句子A与句子B;
将所述句子A与句子B输入至所述孪生网络模型中,以使所述网络结构第一分支确定所述句子A的特征向量,所述网络结构第二分支确定所述句子B的特征向量,并使得所述孪生网络模型将所述句子A的特征向量与句子B的特征向量进行特征融合得到融合向量后,基于所述句子A的特征向量与句子B的特征向量以及所述融合向量,确定用于将待处理句子向量化的孪生网络模型的主分类任务。
进一步地,所述网络结构第一分支和网络结构第二分支、主分类任务、第一分支辅助任务和第二分支辅助任务的损失函数为自定义损失,其中损失函数的公式为:
其中,zi为孪生网络模型输出,i=1为第一分支辅助任务输出,i=2为主分类任务输出,i=3为第二分支辅助任务输出,σ为孪生网络模型超参数,w为孪生网络模型权重矩阵,ε=0.1。
进一步地,所述从向量库中确定与语句C的特征向量相似度最高的相似向量,包括:
通过余弦相似度公式,计算出每个句子向量与所述语句向量的相似度,其中句子向量存储在所述向量库中;
若句子向量与所述语句C的特征向量的相似度大于预设阈值,则确定出所述句子向量与所述语句C的特征向量之间的向量差值处于预设差值范围内;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京育学园健康管理中心有限公司,未经北京育学园健康管理中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110398762.1/2.html,转载请声明来源钻瓜专利网。