[发明专利]一种基于双数组Trie的文本标注方法、终端设备及存储介质在审
申请号: | 202011356101.4 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112364605A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 黄进振;丘斌;刘志军 | 申请(专利权)人: | 智业软件股份有限公司 |
主分类号: | G06F40/157 | 分类号: | G06F40/157;G06F40/117;G06F40/289;G06F40/211;G06F16/31 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
地址: | 361000 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双数 trie 文本 标注 方法 终端设备 存储 介质 | ||
1.一种基于双数组Trie的文本标注方法,其特征在于,包括以下步骤:
S1:构建字典库,并将字典库装载至双数组Trie中;
S2:将待标注文本拆分成多个句子后,通过装载后的双数组Trie对每个句子中的待标注的词进行识别,并根据识别到的词的属性生成标注格式数据,通过标注格式数据对待标注文本进行自动标注;
S3:将自动标注的结果发送用户界面进行人工审核,当接收到修改指令后,根据修改指令对中自动标注的结果进行修改,并根据修改结果对字典库的内容进行更新,返回S1;否则,结束。
2.根据权利要求1所述的基于双数组Trie的文本标注方法,其特征在于:字典库的构建过程包括:
(1)词库导入:从开源的词库内查找到需要的词库文件后,并对其进行解析后,将词库文件导入对应的数据库内;
(2)手动添加:当词库中的词不能满足需求时,按照词库的格式进行手动添加。
3.根据权利要求1所述的基于双数组Trie的文本标注方法,其特征在于:待标注文本通过预设的分隔符号进行拆分。
4.一种基于双数组Trie的文本标注终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~3中任一所述方法的步骤。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1~3中任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智业软件股份有限公司,未经智业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011356101.4/1.html,转载请声明来源钻瓜专利网。