[发明专利]一种在查询信息中识别核心词的方法、装置和设备在审
申请号: | 201711252342.2 | 申请日: | 2017-12-01 |
公开(公告)号: | CN110019676A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 崔志刚;王峰;李刚;贺宇凯;易鸣;汤俊杰 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06N20/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘佳;王宝筠 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器学习模型 查询信息 目标查询 核心词 历史查询 分词 上下文位置 基于机器 接收用户 历史目标 目标核心 输出结果 输入序列 词向量 网络 学习 | ||
1.一种在查询信息中识别核心词的方法,其特征在于,包括:
接收用户提供的目标查询信息;
对所述目标查询信息进行分词,得到初始关键词;
将所述初始关键词输入到机器学习模型中,并基于所述机器学习模型的输出结果,从所述初始关键词中确定出目标核心词;
其中,所述机器学习模型已基于历史查询信息分词得到的历史关键词与所述历史查询信息中已知的历史目标词之间的对应关系进行了训练;
在所述机器学习模型中包括长时间记忆网络;所述长时间记忆网络的输入序列包括第一序列;在所述第一序列中,所述初始关键词对应的词向量按照所述初始关键词在所述目标查询信息中的上下文位置进行排列。
2.根据权利要求1所述的方法,其特征在于,所述初始关键词对应的词向量具体为词嵌入向量。
3.根据权利要求1所述的方法,其特征在于,所述长时间记忆网络的输入序列还包括第二序列;在所述第二序列中,所述初始关键词的特性特征对应的向量按照所述初始关键词在所述目标查询信息中的上下文位置进行排列。
4.根据权利要求1所述的方法,其特征在于,在所述机器学习模型中还包括条件随机场模型,所述条件随机场模型的输入序列包括所述长时间记忆网络的输出序列,在所述条件随机场模型中包括用于表示不同分类结果之间转移概率的概率转移矩阵。
5.根据权利要求4所述的方法,其特征在于,所述条件随机场模型的输入序列还包括第三序列;在所述第二序列中,所述初始关键词的特性特征对应的向量按照所述初始关键词在所述目标查询信息中的上下文位置进行排列。
6.根据权利要求1所述的方法,其特征在于,所述长时间记忆神经网络具体为双向长时间记忆神经网络。
7.根据权利要求1所述的方法,其特征在于,所述对所述目标查询信息进行分词,得到初始关键词,具体为:按照字符对所述目标查询信息进行分词,以分词得到的各个字符分别作为所述初始关键词;
所述初始关键词对应的词向量具体为按照字符的分布式表示方式得到的向量。
8.一种在查询信息中识别核心词的装置,其特征在于,包括:
接收单元,用于接收用户提供的目标查询信息;
分词单元,用于对所述目标查询信息进行分词,得到初始关键词;
识别单元,用于将所述初始关键词输入到机器学习模型中,并基于所述机器学习模型的输出结果,从所述初始关键词中确定出目标核心词;
其中,所述机器学习模型已基于历史查询信息分词得到的历史关键词与所述历史查询信息中已知的历史目标词之间的对应关系进行了训练;
在所述机器学习模型中包括长时间记忆网络;所述长时间记忆网络的输入序列包括第一序列;在所述第一序列中,所述初始关键词对应的词向量按照所述初始关键词在所述目标查询信息中的上下文位置进行排列。
9.一种在查询信息中识别核心词的设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1-7中任意一项所述的方法。
10.一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-7中任意一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711252342.2/1.html,转载请声明来源钻瓜专利网。