[发明专利]一种句向量生成方法、装置及电子设备在审
申请号: | 201911237153.7 | 申请日: | 2019-12-05 |
公开(公告)号: | CN111178082A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 贺宇;佟子健;茹立云 | 申请(专利权)人: | 北京葡萄智学科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 向量 生成 方法 装置 电子设备 | ||
本发明实施例提供了一种句向量生成方法、装置及电子设备。所述句向量生成方法包括:确定目标文本中的目标语句;确定目标语句的前N个第一语句以及目标语句的后M个第二语句;获取每一第一语句和每一第二语句的句向量;将每一第一语句和每一第二语句的句向量,作为预设句向量预测模型的输入参数,通过预设句向量预测模型,预测出目标语句的目标句向量。本发明实施中,在生成目标语句的句向量时,不再是基于目标语句的词向量,而是基于目标语句的前后语句,并通过预设句向量预测模型,预测目标语句的句向量。由于不同语言环境中目标语句的前后语句,相似的概率较低,因此,这样得到的句向量,能够较好的对目标语句的语义信息进行表达,准确度较高。
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种句向量生成方法、装置及电子设备。
背景技术
在很多自然语言处理(Natural Language Processing,简称NLP)任务中,经常需要将一个句子表达成一个向量,用于后续的分类、聚类等处理。
现有技术中,在获得一个句子的向量表示时,是基于词向量来获得句子的句向量。现有的句向量表达方法在简单语言环境中能够有效地对句子的语义信息进行表达,在下游任务中能够获得较好的效果。但是对于某些复杂的语言环境,目前的句向量表达方法并不能获得很好的效果。比如对于下面两个句子:
A:如何更改登录密码?
B:如何更改支付密码?
显然,A和B两个句子表达的是不同的含义,但是如果使用目前的句向量表达方法来获取相应的句子向量,则没有办法很好地将A和B两个句子区分开。原因是目前主流的句向量表达方法,都是基于词向量来学习句子向量,而词向量的获取都是基于上下文环境,即:词的语义是由其上下文决定的,上下文相近的词,其语义也相近。因此对于像A和B这种语境的句子,只有个别词不一样,其上下文完全一样,通过这种方式学习得到的“登录”的词向量和“支付”的词向量在向量空间非常近,不具备区分性,不能充分表达对应词的语义。因此,基于这种词向量学习得到的句向量,对语义信息的表达效果可能差,不够准确。
发明内容
本发明实施例提供一种句向量生成方法、装置及电子设备,以解决现有技术中,基于词向量得到的句向量,存在对语义信息的表达不够准确的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种句向量生成方法,包括:
确定目标文本中的目标语句;其中,所述目标文本包括至少两个语句,所述目标语句为所述至少两个语句中的一个语句;
确定所述目标语句的前N个第一语句以及所述目标语句的后M个第二语句,N与M均为大于或等于1的整数;
获取每一所述第一语句和每一所述第二语句的句向量;
将每一所述第一语句和每一所述第二语句的句向量,作为预设句向量预测模型的输入参数,通过所述预设句向量预测模型,预测出所述目标语句的目标句向量。
第二方面,本发明实施例还提供了一种句向量生成装置,包括:
第一确定模块,用于确定目标文本中的目标语句;其中,所述目标文本包括至少两个语句,所述目标语句为所述至少两个语句中的一个语句;
第二确定模块,用于确定所述目标语句的前N个第一语句以及所述目标语句的后M个第二语句;其中,N与M均为大于或等于1的整数;
第一获取模块,用于获取每一所述第一语句和每一所述第二语句的句向量;
生成模块,用于将每一所述第一语句和每一所述第二语句的句向量,作为预设句向量预测模型的输入参数,通过所述预设句向量预测模型,预测出所述目标语句的目标句向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京葡萄智学科技有限公司,未经北京葡萄智学科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911237153.7/2.html,转载请声明来源钻瓜专利网。