[发明专利]一种信息抽取方法及相关设备在审
申请号: | 201910836510.5 | 申请日: | 2019-09-05 |
公开(公告)号: | CN112445888A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 张庆扬;王志平 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/9532;G06F40/289;G06F40/30 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 抽取 方法 相关 设备 | ||
本发明实施例公开了一种信息抽取方法及相关设备,包括:当检测到用户输入的检索请求时,首先对检索请求进行分词处理,得到多个分词词语;接着确定多个分词词语中每个分词词语所属词典的词典索引、以及根据词典索引确定引用该词典的识别抽取规则;然后根据识别抽取规则,确定检索请求对应的规则模板;最后按照规则模板,抽取检索请求中的槽位信息。其中,识别抽取规则和规则模板均可以通过Web端管理工具进行可视化配置,因此采用本发明实施例,可以节约搜索引擎的开发成本、提高产品迭代更新的效率。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种信息抽取方法及相关设备。
背景技术
随着互联时代的发展,用户可以通过搜索引擎搜索任何期望的信息。为了提升用户的搜索体验,尽可能地让用户更快、更精确的获取目标信息,在现有技术中,一方面采用了基于传统搜索引擎的搜索方法,这种方法是对传统搜索引擎进行一定程度的改造,其主要思想是先将服务能力以文本的形式索引起来,再结合搜索引擎已有的信息识别和抽取能力对文本中词语进行召回和排序,然后根据检索召回的结果对用户的检索请求(Query)进行槽位信息的抽取。另一方面,采用了基于服务类目的定制化开发的方法。这种方法针对每一种服务类目,单独进行定制化开发,比如针对汽车、股票,机票等分别进行开发处理。第三方面,在基于服务类目的定制化开发的基础上,新增基于模型的用户意图抽取。这种方法一般通过有监督的学习方法,针对特定类目进行训练学习生成模型,以供搜索系统使用。然而,在适应新增服务意图的识别和抽取的过程中,无论是基于传统搜索引擎还是定制化开发都将消耗很高的开发成本,任何一个新增服务都需要开发人员介入进行相应的开发测试,迭代周期较长,消耗人力较大。
发明内容
本发明提供一种信息抽取方法及相关设备,可以节约搜索引擎的开发成本、提高产品迭代效率。
第一方面,本发明实施例提供了一种信息抽取方法,包括:
当检测到用户输入的检索请求时,对所述检索请求进行分词处理,得到多个分词词语;
确定所述多个分词词语中每个分词词语所属词典的词典索引、以及根据所述词典索引确定引用所述词典的识别抽取规则;
根据所述识别抽取规则,确定所述检索请求对应的规则模板;
按照所述规则模板,抽取所述检索请求中的槽位信息,所述槽位信息用于表示用户意图。
其中,所述根据所述识别抽取规则,确定所述检索请求对应的规则模板包括:
确定所述识别抽取规则所属的规则模板;
对所述多个分词词语对应的规则模板求交集,得到模板集合;
若所述模板集合不为空集,则将所述模板集合包含的规则模板作为所述检索请求对应的规则模板。
其中,所述对所述多个分词词语对应的规则模板求交集得到模板集合包括:
对所述多个分词词语之间的可配置信息进行合法性校验,所述可配置信息包括所述分词词语在所述检索请求中的位置关系和出现的顺序中的至少一种;
将所述可配置信息合法的分词词语对应的规则模板的交集作为所述模板集合。
其中,所述对所述多个分词词语对应的规则模板求交集得到模板集合之后,还包括:
若所述模板集合为空集,则对所述多个分词词语进行拼接处理得到至少一个拼接词语;
根据所述至少一个拼接词语,确定所述检索请求对应的规则模板。
其中,所述检索请求对应多个服务类目;
所述当检测到用户输入的检索请求时,对所述检索请求进行分词处理,得到多个分词词语之前,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910836510.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据生成方法、装置以及计算机可读存储介质
- 下一篇:螺丝及接口卡
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置