[发明专利]一种文本结构化标注方法、系统、设备和介质在审
申请号: | 202110365061.8 | 申请日: | 2021-04-06 |
公开(公告)号: | CN113051401A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 姚娟娟;柴洪峰;樊代明 | 申请(专利权)人: | 明品云(北京)数据科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 |
代理公司: | 上海汉之律师事务所 31378 | 代理人: | 冯华 |
地址: | 102400 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 结构 标注 方法 系统 设备 介质 | ||
1.一种文本结构化标注方法,其特征在于,包括:
获取待标注文本,并通过交互平台从所述待标注文本中获取第一文本数据;
通过对所述第一文本数据进行分词处理,确定标注范围;
对所述标注范围内的词进行分类标注,并将标注信息通过所述交互平台输出至具有对应权限的核验对象,经过至少两次核查后,将确认的标注信息用于更新标注词库。
2.根据权利要求1所述的文本结构化标注方法,其特征在于,获取所述待标注文本包括:
对已有文本数据进行排序,并根据文本数据来源设置抽取比例,其中,排序方式包括:按文本字数排序和/或按包含数据类别数排序;
根据所述抽取比例从经过排序的文本数据中获取所述待标注文本。
3.根据权利要求1所述的文本结构化标注方法,其特征在于,通过对所述第一文本数据进行分词处理,确定标注范围,包括:
设置特定领域的标准词库,通过所述标准词库中标准词对经过分词算法得到的分词结果进行校验,获取所述第一文本数据对应的词集合,其中所述标准词库包括:对应领域的背景词库、同义词库、近义词库;
将所述词集合中与标准词匹配的词作为待标注词。
4.根据权利要求3所述的文本结构化标注方法,其特征在于,对标注范围内的词进行分类标注,包括:
获取与所述待标注词匹配的一个或多个标准词类别,通过所述交互平台对应的交互界面显示所述待标注词以及对应类别信息。
5.根据权利要求1所述的文本结构化标注方法,其特征在于,通过具有权限的核验对象进行核查包括:
基于标注信息创建第一核查任务,所述交互平台将包含词以及对应标注信息的数据通过对应的交互界面输出至具有所述第一核查任务处理权限的核验对象,经过核查得到第一确认信息,其中,所述第一确认信息包括:词是否为包含完整语义的最小单位、在所述第一文本数据中词对应前后位置是否有可被纳入对应词表达的词汇、词是否与标注信息匹配;
根据所述第一确认信息创建第二核查任务,所述交互平台将所述第一确认信息通过对应的交互界面输出至具有第二核查任务处理权限的核验对象,经过复查,获取第二确认信息。
6.根据权利要求5所述的文本结构化标注方法,其特征在于,所述交互界面的操作包括增/删词汇、确认/更改标注信息。
7.根据权利要求1所述的文本结构化标注方法,其特征在于,还包括:根据所述交互平台设置的更新任务,对所述标注词库进行更新;当所述标注词库中词被确认次数超出设定阈值时,所述交互平台不再显示对应词的确认信息;其中,更新任务设置方式包括:定期更新、基于事件触发更新。
8.一种文本结构化标注系统,其特征在于,包括:
文本获取模块,用于获取待标注文本,并通过交互平台从所述待标注文本中获取第一文本数据;
标注词确定模块,用于通过对所述第一文本数据进行分词处理,确定标注范围;
标注核查模块,用于对所述标注范围内的词进行分类标注,并将标注信息通过所述交互平台输出至具有对应权限的核验对象,经过至少两次核查后,将确认的标注信息用于更新标注词库。
9.一种文本结构化标注设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如权利要求1-7中一个或多个所述的方法。
10.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如权利要求1-7中一个或多个所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于明品云(北京)数据科技有限公司,未经明品云(北京)数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110365061.8/1.html,转载请声明来源钻瓜专利网。