[发明专利]用于语料处理的任务生成方法及装置有效
申请号: | 201811190894.X | 申请日: | 2018-10-12 |
公开(公告)号: | CN109522534B | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 周义廷;汪冠春;胡一川;张海雷 | 申请(专利权)人: | 北京来也网络科技有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/247 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 杜月 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语料 处理 任务 生成 方法 装置 | ||
1.一种用于语料处理的任务生成方法,其特征在于,用于获取同一语义下的不同自然语言表达方式,所述方法包括:
根据领域建立语义框架;
在所述语义框架的基础上建立语料剧本;
根据所述语料剧本选择种子模板;以及
确定需要用于改述的种子模板并生成改述语料众包任务;
根据领域建立语义框架包括:
过滤人机对话过程中的行为得到对话行为;
根据拟完成任务时需要获取的信息类型确定槽以及槽值;以及
根据所述对话行为、所述槽以及所述槽值生成语义框架;
在所述语义框架的基础上建立语料剧本包括:
变更所述对话行为的组合、所述槽的组合以及所述槽的顺序的组合生成不同的对话片段;以及
通过对话片段建立人机之间的对话内容作为语料剧本;
根据所述语料剧本选择种子模板包括:
生成所述种子模版中参与对话的人的角色信息;
生成对话发生场景的背景信息;
生成所述种子模版中的上下文环境信息;以及
确定需要语料泛化的所述种子模版。
2.根据权利要求1所述的任务生成方法,其特征在于,确定需要用于改述的种子模板并生成改述语料众包任务包括:
确定需要用于改述的种子模板并通过服务器上数据接口或应用程序编程接口发布改述语料众包任务;
配置发布改述语料众包任务的任务完成条件;以及
按照预设规则调度并通过社交网络服务器下发改述语料众包任务。
3.一种用于语料处理的任务生成装置,其特征在于,用于获取同一语义下的不同自然语言表达方式,所述装置包括:
领域模块,用于根据领域建立语义框架;
剧本模块,用于在所述语义框架的基础上建立语料剧本;
种子模板生成模块,用于根据所述语料剧本选择种子模板;以及
任务生成模块,用于确定需要用于改述的种子模板并生成改述语料众包任务;
所述领域模块包括:
过滤单元,用于过滤人机对话过程中的行为得到对话行为;
确定单元,用于根据拟完成任务时需要获取的信息类型确定槽以及槽值;以及
语义框架生成单元,用于根据所述对话行为、所述槽以及所述槽值生成语义框架;
所述领域模块还包括:
变更单元,用于变更所述对话行为的组合、所述槽的组合以及所述槽的顺序的组合生成不同的对话片段;以及
建立单元,用于通过对话片段建立人机之间的对话内容作为语料剧本;
所述种子模板生成模块包括:
角色信息生成单元,用于生成所述种子模版中参与对话的人的角色信息;
背景信息生成单元,用于生成对话发生场景的背景信息;
环境信息生成单元,用于生成所述种子模版中的上下文环境信息;以及
种子模版确定单元,用于确定需要语料泛化的所述种子模版。
4.根据权利要求3所述的任务生成装置,其特征在于,所述任务生成模块包括:
接口确定单元,用于确定需要用于改述的种子模板并通过服务器上数据接口或应用程序编程接口发布改述语料众包任务;
配置单元,用于配置发布改述语料众包任务的任务完成条件;以及
调度单元,用于按照预设规则调度并通过社交网络服务器下发改述语料众包任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京来也网络科技有限公司,未经北京来也网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811190894.X/1.html,转载请声明来源钻瓜专利网。