[发明专利]一种人机结合的语料标注方法及系统有效
申请号: | 201811323385.X | 申请日: | 2018-11-08 |
公开(公告)号: | CN109582925B | 公开(公告)日: | 2023-02-14 |
发明(设计)人: | 张泽明;肖龙源;蔡振华;李稀敏;刘晓葳;谭玉坤 | 申请(专利权)人: | 厦门快商通信息技术有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F16/332 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 乐珠秀 |
地址: | 361007 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 人机 结合 语料 标注 方法 系统 | ||
本发明公开了一种人机结合的语料标注方法及系统,其获取待标注的语料数据并进行人工观测;根据用户输入的定位信息对所述语料数据进行关键语料的定位;对定位的关键语料进行突出标记,得到标记语料;通过筛选算法从所述语料数据中提取所述标记语料;对所述标记语料进行语料类别的标注,得到标注语料;从而实现人机结合的语料标注,能够辅助标注人员提高标注效率,减少标注人员的工作量,并具有一定的互动性,减轻乏味感。
技术领域
本发明涉及自然语言处理技术领域,特别是一种人机结合的语料标注方法及其应用该方法的系统。
背景技术
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。传统的语料库主要应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。随着互联网大数据及人工智能技术的发展,语料库也被广泛的应用。
语料库中存放的是在语言的实际使用中真实出现过的语言材料,例如直接从网页上获取的用户留言、客服对话等;语料库是承载语言知识的基础资源,但并不等于语言知识;真实语料需要经过加工,才能成为有用的资源,对真实语料的加工可包含除脏数据、语义标注、词性标记等,而在对语料进行标注时,往往需要靠人工或机器学习对各个语料数据进行标注。
但是,现实中获取到的大规模数据往往并不是相应人员所期望的那样完全有用,大规模语料的加工标注,现实中不可能单靠机器完成,更多的是需要一定的人力去完成标注。该种情况的存在,导致需要花费一定量的人力资源或财力资源,甚至降低一个开发团队的效率。
因此,如果能降低这方面的困难,把人力资源从这种困难中解放出来,必然能够一定量的提高项目的效率以及进度的提高。
发明内容
本发明为解决上述问题,提供了一种人机结合的语料标注方法及系统,能够辅助标注人员提高标注效率,减少标注人员的工作量。
为实现上述目的,本发明采用的技术方案为:
一种人机结合的语料标注方法,其包括以下步骤:
a.获取待标注的语料数据并进行人工观测;
b.根据用户输入的定位信息对所述语料数据进行关键语料的定位;
c.对定位的关键语料进行突出标记,得到标记语料;
d.通过筛选算法从所述语料数据中提取所述标记语料;
e.对所述标记语料进行语料类别的标注,得到标注语料。
优选的,所述的步骤a中,所述语料数据为表格文本;所述的步骤b中,所述的关键语料的定位,是通过单元格定位的方法,根据用户输入的行列信息得到所述单元格对应的关键语料。
或者,所述的步骤a中,所述语料数据为文档文本;所述的步骤b中,所述的关键语料的定位,是通过行号定位的方法,根据用户输入的行号信息得到所述行号对应的关键语料。
优选的,所述的步骤b中,是通过一命令窗口进行输入所述定位信息;并且,在所述命令窗口中向用户展示所述定位信息的提示语。
优选的,所述的步骤c中,所述突出标记,是指对所述标记语料添加不同于原始的语料数据的字体颜色或背景颜色。
优选的,所述的步骤d中,所述筛选算法是指根据颜色条件从所述语料数据中提取所述标记语料。
优选的,所述的步骤e中,对所述标记语料进行语料类别的标注,是采用人工标注语料类别,或者采用机器学习对所述标记语料进行语料类别的训练。
对应的,本发明还提供一种人机结合的语料标注系统,其包括:
数据采集模块,用于获取待标注的语料数据并进行人工观测;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通信息技术有限公司,未经厦门快商通信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811323385.X/2.html,转载请声明来源钻瓜专利网。