[发明专利]在线人工中文文本标注系统有效
申请号: | 201910867119.1 | 申请日: | 2019-09-12 |
公开(公告)号: | CN110717317B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 罗冠;吴超尘;胡卫明 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F40/169 | 分类号: | G06F40/169;G06F40/289;G06Q10/10 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 在线 人工 中文 文本 标注 系统 | ||
本发明属于文本标注领域,具体涉及一种在线人工中文文本标注系统,旨在解决现有人工中文文本标注系统无法实现多人协作标注的问题。本发明系统包括:服务器、第一、二客户端;第一、二客户端分别与服务器相连;服务器包括数据库;第一客户端包括管理模块;第二客户端包括标注、重分词、切换模块;管理模块配置为拆分标注文本,并上传数据库;数据库配置为根据分配指令将标注项目与标注用户关联;标注模块配置为对标注项目中的语句进行标注;重分词模块配置为依据输入指令对标注项目的语句进行重新分词;切换模块配置为对标注、重分词模块工作状态的切换。本发明实现了多人协作标注,并提高了文本标注的准确率和效率。
技术领域
本发明属于文本标注领域,具体涉及一种在线人工中文文本标注系统。
背景技术
随着人工智能和自然语言处理技术的迅速发展,人们越来越多的将其应用到教育、医疗、科研、商业等领域。基于机器学习的自然语言处理技术通常需要高质量的人工标注过的数据用于模型训练,但现阶段已标注的中文语料库非常少,而且大部分语料库的数据规模与质量根本满足不了高质量的业务模型的需求。我们常常需要人工制作标注过的中文语料库。
传统人工标注语句的工具常为文本编辑器,例如Notepad++、Visual StudioCode、Notepad等工具,这些编辑器设计的初衷主要是为了文本保存、编辑,及代码浏览、添加、修改等,用这些编辑器做标注常常非常耗时且容易出错。例如在中文实体标注中,常常需要定位当前所要标注的句子并且找到需要标注的词语,在这过程中标注人员很有可能会漏掉部分需要标注的词语或者句子。另外,标注人员在标注过程中常常需要对正在标注的内容进行切换,一般是通过拖动文本浏览器的滚动条或者打开文件完成,此过程消耗时间较多并且容易造成标注人员的疲劳。
现在一些单机版的标注软件相对于文本编辑器,提高了标注的效率与准确度,并可以实现一些项目管理的功能。但只适合于小团队:即1到2位标注人员协作完成,对于需要十几人甚至更多的标注人员的团队协作并不能胜任。例如,在标注过程中,需要共同标注一条语句,由于单机版的标注程序不能联网,实现此功能需要把两人标注的文本拷贝到同一电脑上比对,或者在标注的过程中若发现分词错误,无法直接进行修改。因此,本发明提出了在线人工中文文本标注系统。
发明内容
为了解决现有技术中的上述问题,即为了解决现有人工中文文本标注系统无法实现多人共同协作标注的问题,本发明第一方面,提出了一种在线人工中文文本标注系统,该标注系统包括服务器、一个或多个第一客户端以及一个或多个第二客户端;所述第一客户端、所述第二客户端分别与所述服务器相连,所述服务器包括数据库;所述第一客户端包括管理模块;所述第二客户端包括标注模块、重分词模块、切换模块;
所述管理模块,配置为获取待标注文本,并依据输入的拆分指令将所述待标注文本拆分为多个待标注项目;将由多个标注项目构成的待标注文本上传至所述数据库;所述待标注项目包括一条或多条分词后的语句;
所述数据库,配置为存储由多个标注项目构成的待标注文本;依据所述第一客户端和/或所述第二客户端输入的任务分配指令将标注项目与标注用户关联;
所述标注模块,配置为从所述数据库获取相应标注用户对应的标注项目,依据输入的标注指令对标注项目中的语句进行标注;将标注后的标注项目发送至所述数据库;
所述重分词模块,配置为依据输入指令对标注项目的语句进行重新分词,获取由新的组合词序列的语句;
所述切换模块,配置为对所获取的待标注项目进行标注模块工作状态、重分词模块工作状态的切换。
在一些优选的实施方式中,所述标注模块中“依据输入的标注指令对标注项目中的语句进行标注”,其方法为:依据输入的标注指令,得到所述语句中各词语对应的标注标签;所述语句为已分词的语句,其包括一个或多个词语。
在一些优选的实施方式中,所述输入的标注指令为基于JavaScript的键盘响应功能设置的标注标签对应的键盘输入指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910867119.1/2.html,转载请声明来源钻瓜专利网。