[发明专利]一种实例扩展方法、装置、设备和介质有效
申请号: | 201810714308.0 | 申请日: | 2018-06-29 |
公开(公告)号: | CN108932326B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 王一鸣;姜文斌;孙珂 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实例 扩展 方法 装置 设备 介质 | ||
本发明实施例公开了一种实例扩展方法、装置、设备和介质,涉及自然语言处理技术领域。本发明实施例提供了一种实例扩展方法,该方法包括:获取包括关键词信息的待扩展实例规则;将获取的待扩展实例规则输入实例扩展模型,生成扩展实例。本发明实施例提供了一种实例扩展方法、装置、设备和介质,从而生成比待扩展实例的句式更丰富的扩展实例。
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种实例扩展方法、装置、设备和介质。
背景技术
针对于搜索项(query)理解任务,较普遍的方式是采用将query解析为意图和槽位的形式,即将query中的关键信息标注为槽位,将query的目的标注为意图。比如“明天天气怎么样”,意图为天气查询,槽位信息为明天。
在机器学习中,通常基于序列标注模型对query进行理解和应答。然而,序列标注模型的训练需要大量的有标注意图和槽位信息的实例数据作为训练样本。目前,实例数据获取主要方法是:对人工标注的少量待扩展实例进行识别,对识别到的关键信息进行替换,以获取更多扩展实例。
但是,因为仅是对待扩展实例中的关键信息的替换,所以生成的扩展实例的句式与待扩展实例的句式相同,从而导致生成的扩展实例的句式单一。然而单一句式的扩展实例对序列标注模型训练的提升有限。
发明内容
本发明实施例提供一种实例扩展方法、装置、设备和介质,以生成比待扩展实例的句式更丰富的扩展实例。
第一方面,本发明实施例提供了一种实例扩展方法,该方法包括:
获取包括关键词信息的待扩展实例规则;
将获取的待扩展实例规则输入实例扩展模型,生成扩展实例。
进一步地,将获取的待扩展实例规则输入实例扩展模型,生成扩展实例包括:
将获取的待扩展实例规则和随机种子输入实例扩展模型,生成扩展实例。
进一步地,在将获取的待扩展实例规则输入实例扩展模型,生成扩展实例之前,还包括:
确定待扩展实例关联的待扩展实例规则;
将所述待扩展实例和所述待扩展实例关联的待扩展实例规则作为样本,对初始模型进行训练得到所述实例扩展模型。
进一步地,确定待扩展实例关联的待扩展实例规则包括:
对待扩展实例进行文本分析,根据文本分析结果从待扩展实例中提取待扩展实例规则。
进一步地,确定待扩展实例关联的待扩展实例规则包括:
对获取的待扩展实例进行文本分析;
将文本分析结果与获取的待扩展实例规则进行匹配,将匹配一致的待扩展实例规则作为所述待扩展实例关联的待扩展实例规则。
第二方面,本发明实施例还提供了一种实例扩展装置,该装置包括:
规则获取模块,用于获取包括关键词信息的待扩展实例规则;
实例生成模块,用于将获取的待扩展实例规则输入实例扩展模型,生成扩展实例。
进一步地,实例生成模块包括:
实例生成单元,用于将获取的待扩展实例规则和随机种子输入实例扩展模型,生成扩展实例。
进一步地,所述的装置还包括:
样本规则确定模块,用于在将获取的待扩展实例规则输入实例扩展模型,生成扩展实例之前,确定待扩展实例关联的待扩展实例规则;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810714308.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型应用搜索方法及其系统
- 下一篇:一种页面信息提取系统及提取方法