[发明专利]一种基于业务过程管理技术的自然语言文本处理与分析任务的管理框架在审
申请号: | 202110045641.9 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112559753A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 李传艺;程琨;骆斌 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/211;G06F40/284;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 业务 过程 管理 技术 自然语言 文本 处理 分析 任务 框架 | ||
1.一种基于业务过程管理技术的自然语言文本处理与分析任务的管理框架,其特征在于,包括:
用户角色分为管理员和普通用户,普通用户可以上传数据集、标注数据、执行数据预处理、训练模型、执行数据批处理等操作,管理员拥有普通用户的所有功能,同时可以对普通用用户执行增加、删除、修改、和查询的操作;
框架中定义了多种适用的自然语言处理和分析任务,上传的自然语言文本数据集需满足这些任务的类型,并按照规定格式记录,例如每一条数据需要包括单个语段或多个语段,使用文本文件或者Excel文件存储;
根据上传数据集的类型生成数据标注界面,用户需要配置标注任务并邀请参与者,结束后需要生成标注结果;
用户可以对标注结果数据集中的文本语段定义预处理方式和执行预处理,例如分词、特征计算等;
用户根据数据集预处理结果和数据集分析目标定义机器学习模型,并执行模型训练和测试,最终保存训练好的模型;
用户可以根据训练好的模型对未标注的数据集执行批处理,完成处理和分析目标。
2.根据权利要求1所述的框架,所述框架中定义的多种适用的自然语言处理和分析任务包括:单文本分类、单文本信息抽取、语段内句子排序、双文本匹配、双语段内句子关联分析、单文本与语段内句子关联分析(基于检索的结果排序),和多种任务组合的任务。
3.根据权利要求1所述的框架,其特征在于根据上传数据集的类型生成数据标注界面,用户需要配置标注任务并邀请参与者,结束后需要生成标注结果包括:
数据上传成功后,框架根据所选分析目标自动构建标注数据库表,为每一个数据集单独生成标注数据库表,数据库表的格式按照分析的目标任务预先定义好;
数据集拥有者可以配置数据标注方式,例如单人标注、多人唯一标注、多人重复标注、多人随机标注等;
数据集拥有者可以配置数据标注目标,例如以某个日期为截止时间,到期后所有人不能标注,也可以使用标注量作为标注目标;
数据集拥有者可以邀请其他用户参与标注,被邀请的用户获得访问标注页面的权限,未被邀请的用户可以通过主动申请权限向数据集拥有者发送标注请求;
数据标注结束后,数据集拥有者可以通过投票方式对标注结果进行质量控制,生成最终的标注结果数据集。
4.根据权利要求1所述的框架,其特征在于用户可以对标注结果数据集中的文本语段定义预处理方式和执行预处理,例如分词、特征计算等包括:
用户可以通过编写代码实现预处理方法,也可以选择框架提供的、自己已经保存的和其他用户公开的预处理方法,对自己的标注数据集进行预处理;
对于一个数据集,可以编写或选择多个不同的预处理方法,构成预处理管道;
预处理管道可以保存和公开,供下次或他人使用;
执行预处理时,可以分步执行,也可以管道为单位一起执行;
预处理后,生成特征数据集,用户下一步的模型训练或者批处理。
5.根据权利要求1所述的框架,其特征在于用户根据数据集预处理结果和数据集分析目标定义机器学习模型,并执行模型训练和测试,最终保存训练好的模型包括:
用户可以通过编写代码实现机器学习模型,或者选择框架提供的、自己保存的和他人公开的机器学习模型;
用户根据需要配置训练数据、验证和测试数据比例;
用户根据需要选择预处理阶段生成的数据集特征,作为训练的特征集;
用户可以通过模型训练页面查看训练过程和训练结果,包括在各个数据集上的表现;
最终用户可以选择保存训练好的模型,用于后续批处理,或者选择重新训练。
6.根据权利要求1所述的框架,其特征在于用户可以根据训练好的模型对未标注的数据集执行批处理,完成处理和分析目标包括:
用户根据分析目标选择已上传的未标注数据集,并使用与训练数据集相同的预处理管道进行预处理,获得该未标注数据集的特征集;
获得特征集后,选择可以使用的已保存的模型,或者是框架提供的、他人公开的模型,对数据集进行批处理;
批处理完成后,用户可以查看批处理结果,并导出数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110045641.9/1.html,转载请声明来源钻瓜专利网。