[发明专利]一种基于双数组Trie的文本标注方法、终端设备及存储介质在审
申请号: | 202011356101.4 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112364605A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 黄进振;丘斌;刘志军 | 申请(专利权)人: | 智业软件股份有限公司 |
主分类号: | G06F40/157 | 分类号: | G06F40/157;G06F40/117;G06F40/289;G06F40/211;G06F16/31 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
地址: | 361000 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双数 trie 文本 标注 方法 终端设备 存储 介质 | ||
本发明涉及一种基于双数组Trie的文本标注方法、终端设备及存储介质,该方法中包括:S1:构建字典库,并将字典库装载至双数组Trie中;S2:将待标注文本拆分成多个句子后,通过装载后的双数组Trie对每个句子中的待标注的词进行识别,并根据识别到的词的属性生成标注格式数据,通过标注格式数据对待标注文本进行自动标注;S3:将自动标注的结果发送用户界面进行人工审核,当接收到修改指令后,根据修改指令对中自动标注的结果进行修改,并根据修改结果对字典库的内容进行更新,返回S1;否则,结束。本发明通过将字典库装载在双数组Trie结构中进行自动标注,大大提升了自动标注的效率。
技术领域
本发明涉及文本标注领域,尤其涉及一种基于双数组Trie的文本标注方法、终端设备及存储介质。
背景技术
在自然语言处理的过程中,需要大量的标注数据进行各种模型的训练,以往都是通过人工手动标注的方式进行数据标注。由于需要标注的数据量是十分庞大的,人工标注的效率显得十分低下,而且由于长时间的重复工作,往往会出现标注错误的情况。所以急需一个快速的标注方式来解决这个问题。
发明内容
为了解决上述问题,本发明提出了一种基于双数组Trie的文本标注方法、终端设备及存储介质。
具体方案如下:
一种基于双数组Trie的文本标注方法,包括以下步骤:
S1:构建字典库,并将字典库装载至双数组Trie中;
S2:将待标注文本拆分成多个句子后,通过装载后的双数组Trie对每个句子中的待标注的词进行识别,并根据识别到的词的属性生成标注格式数据,通过标注格式数据对待标注文本进行自动标注;
S3:将自动标注的结果发送用户界面进行人工审核,当接收到修改指令后,根据修改指令对中自动标注的结果进行修改,并根据修改结果对字典库的内容进行更新,返回S1;否则,结束。
进一步的,字典库的构建过程包括:
(1)词库导入:从开源的词库内查找到需要的词库文件后,并对其进行解析后,将词库文件导入对应的数据库内;
(2)手动添加:当词库中的词不能满足需求时,按照词库的格式进行手动添加。
进一步的,待标注文本通过预设的分隔符号进行拆分。
一种基于双数组Trie的文本标注终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
本发明采用如上技术方案,并具有有益效果:
1.使用双数组Trie结构存储字典库,提高了检索速度;
2.将字典库应用于自动标注中,提高标注效率和准确度;
3.将自动标注的人工审核结果反哺于字典库,丰富了字典库,提高了自动标注准确度。
附图说明
图1所示为本发明实施例一的流程图。
图2所示为该实施例中词库文件导入数据库内的示意图。
图3所示为该实施例中通过输入法的官方网站下载词库文件的示意图。
图4所示为该实施例中手动添加自定义词的示意图。
图5所示为该实施例中Trie树装载结构示意图。
图6所示为该实施例中自动标注效果示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智业软件股份有限公司,未经智业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011356101.4/2.html,转载请声明来源钻瓜专利网。