[发明专利]语义确定方法有效
申请号: | 202110398762.1 | 申请日: | 2021-04-14 |
公开(公告)号: | CN112800777B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 王光勇;姜巍;李乘风;于游;赵永强;廖望梅;张姗姗 | 申请(专利权)人: | 北京育学园健康管理中心有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06N3/04 |
代理公司: | 北京绘聚高科知识产权代理事务所(普通合伙) 11832 | 代理人: | 汪帆 |
地址: | 100000 北京市朝阳区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 确定 方法 | ||
1.一种语义确定方法,其特征在于,所述方法包括:
获取待确定语义的语句C;
将所述语句输入预设的孪生网络模型中,得到语句C的特征向量,其中所述孪生网络模型用于将语句向量化;
从向量库中确定与语句C的特征向量相似度最高的相似向量;
将与所述相似向量对应的标准语句确定为与所述语句对应的语义;
所述孪生网络模型包括网络结构第一分支、网络结构第二分支、主分类任务、第一分支辅助任务和第二分支辅助任务,所述孪生网络模型的训练过程包括:
从预设的训练语料中获取句子A与句子B;
将所述句子A与句子B输入至所述孪生网络模型中,以使所述网络结构第一分支确定所述句子A的特征向量,所述网络结构第二分支确定所述句子B的特征向量,并使得所述孪生网络模型将所述句子A的特征向量与句子B的特征向量进行特征融合得到融合向量后,基于所述句子A的特征向量与句子B的特征向量以及所述融合向量,确定用于将待处理句子向量化的孪生网络模型的主分类任务;
所述网络结构第一分支和网络结构第二分支、主分类任务、第一分支辅助任务和第二分支辅助任务的损失函数为自定义损失,其中损失函数的公式为:
其中,zi为孪生网络模型输出,i=1为第一分支辅助任务输出,i=2为主分类任务输出,i=3为第二分支辅助任务输出,σ为孪生网络模型超参数,w为孪生网络模型权重矩阵,ε=0.1。
2.根据权利要求1所述的语义确定方法,其特征在于,所述从向量库中确定与语句C的特征向量相似度最高的相似向量,包括:
通过余弦相似度公式,计算出每个句子向量与所述语句向量的相似度,其中句子向量存储在所述向量库中;
若句子向量与所述语句C的特征向量的相似度大于预设阈值,则确定出所述句子向量与所述语句C的特征向量之间的向量差值处于预设差值范围内;
从多个处于预设差值范围内的句子向量中确定与语句向量相似度最高的相似向量。
3.根据权利要求2所述的语义确定方法,其特征在于,还包括:若句子向量与所述语句C的特征向量的相似度小于预设阈值,则确定出所述句子向量与所述语句C的特征向量之间的向量差值未处于预设差值范围内。
4.根据权利要求2所述的语义确定方法,其特征在于,所述孪生网络模型的训练过程还包括:
将获取的多个语句以及每个所述语句对应的标签输入孪生网络模型进行训练,以训练出每个所述语句所属的隐含标签以及句向量,其中,所述隐含标签用于机器对该语句进行分类的标签,句向量可包括多个维度。
5.根据权利要求4所述的语义确定方法,其特征在于,在计算所述向量与语句向量的向量差值是否处于预设差值范围之内之前,还包括:
从预先训练好的网络结构第一分支中提取出所述语句对应的隐含标签;
从所述网络结构第一分支对应的网络结构第二分支中,筛选出属于所述隐含标签范围内的语句。
6.根据权利要求2所述的语义确定方法,其特征在于,所述网络结构第二分支与所述网络结构第一分支的权重相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京育学园健康管理中心有限公司,未经北京育学园健康管理中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110398762.1/1.html,转载请声明来源钻瓜专利网。