[发明专利]数据处理的方法、装置和系统在审
申请号: | 201910973268.6 | 申请日: | 2019-10-14 |
公开(公告)号: | CN112732877A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 赵鹏;徐光伟;李辰;包祖贻;刘恒友;李林琳;张佶;杜河禄 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 谢湘宁;张文华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 系统 | ||
本发明公开了一种数据处理的方法、装置和系统。其中,该方法包括:获取用户输入的问询长句;通过语言模型获取问询长句的词向量;依据词向量通过简写模型对问询长句进行改写,得到简写问题。本发明解决了由于现有技术中匹配问答库的效率低的技术问题。
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种数据处理的方法、装置和系统。
背景技术
在互联网发展趋势下,电商平台在提供在线购物或咨询业务的过程中,为减轻人工客服的工作量,基于互联网技术,结合计算机技术,开始逐步发展智能客服应答系统,其中,基于人类的沟通习惯,常常会出现长问句的形式,即,以一个长query向智能客服系统提问,由于长句本身所附带的大量信息,容易导致在对长query进行问答匹配过程中,准确率降低的情况发生。
在相关技术中,用户输入的疑问句长query不受限制,因此会有部分用户输入的疑问句长query非常长,表达冗余,难以匹配到问答库中的问题。
相关技术中,将query中的所有词的静态向量取平均作为query的向量,和问答库中的问题向量计算相似度,达到匹配的目的。该方案的缺点主要有三:
一是静态词向量无法利用上下文的信息,无法解决多义词的问题。
二是词向量平均作为句向量的过于粗糙,所有词都是相同权重处理。
三是原有语言模型并没有利用到问答库的句子隶属关系信息。
针对上述由于现有技术中匹配问答库的效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理的方法、装置和系统,以至少解决由于现有技术中匹配问答库的效率低的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理的系统,包括:预测子系统,用于获取用户输入的问询长句;离线训练子系统,用于依据用户输入的问询长句与离线训练得到的语言模型中的问题进行匹配,得到简写问题,并将简写问题返回预测子系统。
可选的,离线训练,用于根据用户输入的问题和问答库语料通过优化损失函数对语言模型进行优化,并依据优化后的语言模型通过序列对序列的方式对简写模型进行训练,获取问询长句的词向量,并依据词向量对问询长句进行改写得到简写问题。
可选的,预测子系统包括:在线预测子系统。
根据本发明实施例的另一方面,还提供了一种数据处理的方法,包括:获取用户输入的问询长句;通过语言模型获取问询长句的词向量;依据词向量通过简写模型对问询长句进行改写,得到简写问题。
可选的,该方法还包括:根据用户输入的问题和问答库语料通过优化损失函数对语言模型进行优化,得到优化后的语言模型。
进一步地,可选的,根据用户输入的问题和问答库语料通过优化损失函数对语言模型进行优化包括:根据问答库中的语料,增加语料中句子所属同一问题的信息,并通过优化损失函数对语言模型进行优化。
可选的,依据词向量通过简写模型对问询长句进行改写,得到简写问题包括:通过简写模型从词向量中获取满足预设条件的词,其中,预设条件为获取词向量中的权重满足预设阈值的词;通过获取满足预设条件的词对问询长句进行改写,得到简写问题。
进一步地,可选的,简写模型包括:序列对序列简写模型。
可选的,通过简写模型从词向量中获取满足预设条件的词包括:通过序列对序列简写模型中的自我关注机制从词向量中获取满足预设条件的词。
可选的,获取用户输入的问询长句包括:通过客户端设备获取用户输入的问询长句,其中,客户端设备包括:智能移动终端,智能移动终端包括:台式电脑、智能穿戴设备、智能手机、平板电脑、笔记本电脑或掌上商务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910973268.6/2.html,转载请声明来源钻瓜专利网。