[发明专利]文本处理方法及装置、计算机存储介质、电子设备有效
申请号: | 202010448507.9 | 申请日: | 2020-05-25 |
公开(公告)号: | CN111626055B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 李永峰;齐梓辰;倪旻;赵文鹏;赵丽 | 申请(专利权)人: | 泰康保险集团股份有限公司;泰康人寿保险有限责任公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06F40/216;G06F40/242 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 章侃铱;郑特强 |
地址: | 100031 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 计算机 存储 介质 电子设备 | ||
1.一种文本处理方法,其特征在于,包括:
对获取到的目标文本进行分词处理得到多个分词片段;
从所述多个分词片段中,确定具有句法依存关系、且在所述目标文本中连续的分词片段,构成组合词片段;
根据所述组合词片段的词频信息和每个所述分词片段的词频信息,确定所述组合词片段的成词判决值;
若所述成词判决值大于预设阈值,将所述组合词片段作为标准词添加至分词词典中;
从多个所述标准词中,确定具有句法依存关系、且在所述目标文本中连续的标准词,构成新的组合词片段;
根据所述新的组合词片段的词频信息和每个所述标准词的词频信息,确定所述新的组合词片段的成词判决值;
若所述成词判决值大于预设阈值,根据所述新的组合词片段更新所述分词词典。
2.根据权利要求1所述的方法,其特征在于,所述根据所述组合词片段的词频信息和每个所述分词片段的词频信息,确定所述组合词片段的成词判决值,包括:
获取每个所述分词片段的词频信息的乘积;
将所述组合词片段的词频信息与所述乘积的比值确定为所述组合词片段的成词判决值。
3.根据权利要求1所述的方法,其特征在于,在对获取到的目标文本进行分词处理得到多个分词片段之后,所述方法还包括:
对所述分词片段进行词性标注,得到词性标注结果;
根据所述词性标注结果对所述多个分词片段进行依存句法分析,得到所述多个分词片段之间的句法依存关系。
4.根据权利要求3所述的方法,其特征在于,所述对所述分词片段进行词性标注,得到词性标注结果,包括:
构建所述分词片段对应的语义向量;
将所述语义向量输入训练好的词性标注模型中,根据所述词性标注模型的输出,得到所述分词片段的词性标注结果;
其中,所述词性标注模型用于对所述语义向量进行解码,以确定所述分词片段的所述词性标注结果。
5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
获取每个分词片段在所述目标文本中的出现次数,以及,获取所述目标文本的总字数;
根据每个所述分词片段在所述目标文本中的出现次数和所述目标文本的总字数的比值,确定每个所述分词片段的词频信息。
6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
对获取到的目标领域的词库文件进行预处理,所述预处理包括格式转换和文本去重处理;
基于爬虫技术获取所述目标领域的关联文本;
将所述预处理之后的词库文件和所述关联文本确定为所述目标文本。
7.一种文本处理装置,其特征在于,包括:
分词处理模块,用于对获取到的目标文本进行分词处理得到多个分词片段;
组合模块,用于从所述多个分词片段中,确定具有句法依存关系、且在所述目标文本中连续的分词片段,构成组合词片段;
成词判决模块,用于根据所述组合词片段的词频信息和每个所述分词片段的词频信息,确定所述组合词片段的成词判决值;
添加模块,用于若所述成词判决值大于预设阈值,将所述组合词片段作为标准词添加至分词词典中;
从多个所述标准词中,确定具有句法依存关系、且在所述目标文本中连续的标准词,构成新的组合词片段;
根据所述新的组合词片段的词频信息和每个所述标准词的词频信息,确定所述新的组合词片段的成词判决值;
若所述成词判决值大于预设阈值,根据所述新的组合词片段更新所述分词词典。
8.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~6中任意一项所述的文本处理方法。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~6中任意一项所述的文本处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司;泰康人寿保险有限责任公司,未经泰康保险集团股份有限公司;泰康人寿保险有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010448507.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:高穿透性液晶显示面板及制备方法
- 下一篇:一种短路电流计算方法及系统