[发明专利]一种针对中文文本的智能标注方法及系统在审
申请号: | 202110730230.3 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113408290A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 辛国茂;孙露;吴士伟;李钊;卢凤;郭梦燕;孙浩;陈通 | 申请(专利权)人: | 山东亿云信息技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F3/0484 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 闫伟姣 |
地址: | 250014 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 中文 文本 智能 标注 方法 系统 | ||
1.一种针对中文文本的智能标注方法,其特征在于,包括以下步骤:
获取待标注数据集,以及待标注的实体和关系标签;
基于实体关系抽取模型,对待标注数据集进行实体和关系识别,得到预标注结果;
接收用户对预标注结果的修正,完成标注。
2.如权利要求1所述的一种针对中文文本的智能标注方法,其特征在于,得到预标注结果后,对预标注结果进行显示,具体包括:
将待标注数据集的文本内容进行显示,同时显示预标注结果,所述预标注结果对于不同的实体或关系标签根据设定样式进行区分显示;并且,提供不同实体或关系标签相应的样式。
3.如权利要求2所述的一种针对中文文本的智能标注方法,其特征在于,接收用户对预标注结果的修正包括:
捕获屏幕上的鼠标事件,在鼠标滑动过程中,对鼠标所指的词语进行实时区别显示;当鼠标所指的词语需要标注或者需要修改标注时,接收用户的标注操作将相应样式赋予该词语。
4.如权利要求3所述的一种针对中文文本的智能标注方法,其特征在于,对鼠标所指的词语进行实时区别显示包括:
捕获屏幕上的鼠标事件,当鼠标滑过待标注数据集文本中某个字时,查找系统内置分词表中是否有这个字,若有,则获取该字前面或后面的字与该字进行组合,查找分词表中是否有这个组合,若有,则将这个组合认定为是一个词,将该词进行区别显示。
5.一种客户端,与服务器连接,其特征在于,包括:
标注任务配置模块,用于配置待标注数据集、待标注的实体和关系标签,以及所需实体关系抽取模型,并生成标注任务;
标注任务发布模块,用于发布所述标注任务并进行人员分配;
人工标注模块,用于获取经由实体关系抽取模型识别、标注得到的预标注结果并进行显示,接收用户对预标注结果的修正。
6.如权利要求5所述的一种客户端,其特征在于,所述人工标注模块中,将预标注结果进行显示包括:
将待标注数据集的文本内容进行显示,同时显示预标注结果,所述预标注结果对于不同的实体或关系标签根据设定样式进行区分显示;并且,提供不同实体或关系标签相应的样式。
7.如权利要求6所述的一种客户端,其特征在于,所述人工标注模块中,接收用户对预标注结果的修正包括:
捕获屏幕上的鼠标事件,在鼠标滑动过程中,对鼠标所指的词语进行实时区别显示;当鼠标所指的词语需要标注或者需要修改标注时,接收用户的标注操作将相应样式赋予该词语。
8.如权利要求7所述的一种客户端,其特征在于,对鼠标所指的词语进行实时区别显示包括:
捕获屏幕上的鼠标事件,当鼠标滑过待标注数据集文本中某个字时,查找系统内置分词表中是否有这个字,若有,则获取该字前面或后面的字与该字进行组合,查找分词表中是否有这个组合,若有,则将这个组合认定为是一个词,将该词进行区别显示。
9.一种服务器,与如权利要求5-8任一项所述客户端连接,其特征在于,包括:
模型管理模块,用于管理实体关系模型,所述实体关系模型包括模型架构和已训练好的模型;以及,获取客户端关于实体关系抽取模型的配置,得到所需实体关系抽取模型;
智能标注模块,用于基于所述实体关系抽取模型,对待标注数据集进行实体和关系识别,得到预标注结果。
10.一种针对中文文本的智能标注系统,其特征在于,包括如权利要求5-8任一项所述客户端和如权利要求9所述服务器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东亿云信息技术有限公司,未经山东亿云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110730230.3/1.html,转载请声明来源钻瓜专利网。