[发明专利]语义向量的处理方法及装置在审
申请号: | 201811190745.3 | 申请日: | 2018-10-12 |
公开(公告)号: | CN109460549A | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 唐梓毅;汪冠春;胡一川;张海雷 | 申请(专利权)人: | 北京奔影网络科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京卓唐知识产权代理有限公司 11541 | 代理人: | 唐海力;李志刚 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义向量 文本语义 用户请求 词向量 预设 句子 申请 相似度计算 接收用户 向量编码 输出 | ||
1.一种语义向量的处理方法,其特征在于,包括:
接收用户请求;
通过对所述用户请求执行预设处理得到词向量;以及
将所述词向量输入预设句向量编码模型并输出所述用户请求中的句子的语义向量。
2.根据权利要求1所述的处理方法,其特征在于,所述预设句向量编码模型包括:构造训练数据集,所述构造训练数据集包括:
将知识库中划分的知识点按照分类标签分为多层级结构,其中,所述多层级结构至少包括:一级标签和二级标签;
将同一知识点下的相似问题作为正样本;
将不同知识点下的相似问题作为负样本;以及
根据所述相似问题挑选句对并构造出训练数据集。
3.根据权利要求2所述的处理方法,其特征在于,将不同知识点下的相似问题作为负样本包括如下一种或多种操作:
随机选择任意两个不同的知识点下的相似问题作为矛盾关系的负样本;
选择一级标签相同以及二级标签不同的知识点的相似问题作为矛盾关系的负样本。
4.根据权利要求1所述的处理方法,其特征在于,所述预设句向量编码模型包括:训练句向量编码模型,所述训练句向量编码模型包括:
根据自然语言推理任务训练分类器判断输入的两个句子的语义向量;
判断两个句子的蕴含、中立或矛盾的关系;
其中,在训练过程中根据分类器输出结果调整句向量编码模型的权重,训练好的模型中的编码器部分得到可用于语义向量编码的模型。
5.根据权利要求1所述的处理方法,其特征在于,将所述词向量输入预设句向量编码模型并输出所述用户请求中的句子的语义向量包括:
将经过预设处理得到词向量依次通过BiLSTM后得到多个隐藏状态向量;
对所述隐藏状态向量做池化处理到的句子语义向量。
6.一种语义向量的处理装置,其特征在于,包括:
接收模块,用于接收用户请求;
预处理模块,用于通过对所述用户请求执行预设处理得到词向量;以及
句向量模型模块,用于将所述词向量输入预设句向量编码模型并输出所述用户请求中的句子的语义向量。
7.根据权利要求6所述的处理装置,其特征在于,所述句向量模型模块包括:构造训练数据集模块,所述构造训练数据集模块包括:
标签单元,用于将知识库中划分的知识点按照分类标签分为多层级结构,其中,所述多层级结构至少包括:一级标签和二级标签;
正样本处理单元,用于将同一知识点下的相似问题作为正样本;
负样本处理单元,用于将不同知识点下的相似问题作为负样本;以及
挑选单元,用于根据所述相似问题挑选句对并构造出训练数据集。
8.根据权利要求7所述的处理装置,其特征在于,所述负样本处理单元中包括如下一种或多种操作:
随机选择任意两个不同的知识点下的相似问题作为矛盾关系的负样本;
选择一级标签相同以及二级标签不同的知识点的相似问题作为矛盾关系的负样本。
9.根据权利要求6所述的处理装置,其特征在于,所述句向量模型模块包括:训练句向量编码模型模块,所述训练句向量编码模型模块包括:
分类器单元,用于根据自然语言推理任务训练分类器判断输入的两个句子的语义向量;
编码器判断单元,判断两个句子的蕴含、中立或矛盾的关系;
其中,在训练过程中根据分类器输出结果调整句向量编码模型的权重,训练好的模型中的编码器部分得到可用于语义向量编码的模型。
10.根据权利要求6所述的处理装置,其特征在于,所述句向量模型模块包括:
分析单元,用于将经过预设处理得到词向量依次通过BiLSTM后得到多个隐藏状态向量;
池化单元,用于对所述隐藏状态向量做池化处理到的句子语义向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奔影网络科技有限公司,未经北京奔影网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811190745.3/1.html,转载请声明来源钻瓜专利网。