[发明专利]文本处理方法及装置、计算机存储介质、电子设备有效
申请号: | 202010448507.9 | 申请日: | 2020-05-25 |
公开(公告)号: | CN111626055B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 李永峰;齐梓辰;倪旻;赵文鹏;赵丽 | 申请(专利权)人: | 泰康保险集团股份有限公司;泰康人寿保险有限责任公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06F40/216;G06F40/242 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 章侃铱;郑特强 |
地址: | 100031 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 计算机 存储 介质 电子设备 | ||
本公开涉及计算机技术领域,提供了一种文本处理方法、文本处理装置、计算机存储介质、电子设备,其中,文本处理方法包括:对获取到的目标文本进行分词处理得到多个分词片段;从多个分词片段中,确定具有句法依存关系、且在目标文本中连续的分词片段,构成组合词片段;根据组合词片段的词频信息和每个分词片段的词频信息,确定组合词片段的成词判决值;若成词判决值大于预设阈值,将组合词片段作为标准词添加至分词词典中。本公开中的文本处理方法能够在标记语料缺失的情况下凭借有限的词库,快速准确的完成分词任务,避免语义歧义,提高分词准确度。
背景技术
随着科学技术的发展,对文本智能化处理的要求越来越高。分词就是将连续的文本按照语言规范切分成一些字词序列的过程。分词技术是自然语言处理的基础,分词的好坏直接决定了对文本内容解析的准确度。
目前,一般是通过人工建立不同粒度的词库,并进行大量的语料标记形成字典数据,并根据字典数据训练分词模型以进行分词处理。然而,经常会出现语义丢失或语义歧义的现象,分词准确度较低。
鉴于此,本领域亟需开发一种新的文本处理方法及装置。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开的目的在于提供一种文本处理方法、文本处理装置、计算机存储介质及电子设备,进而至少在一定程度上避免了相关技术中准确度较低的缺陷。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种文本处理方法,包括:对获取到的目标文本进行分词处理得到多个分词片段;从所述多个分词片段中,确定具有句法依存关系、且在所述目标文本中连续的分词片段,构成组合词片段;根据所述组合词片段的词频信息和每个所述分词片段的词频信息,确定所述组合词片段的成词判决值;若所述成词判决值大于预设阈值,将所述组合词片段作为标准词添加至分词词典中。
在本公开的示例性实施例中,在将所述组合词片段作为标准词添加至分词词典中之后,所述方法还包括:从多个所述标准词中,确定具有句法依存关系、且在所述目标文本中连续的标准词,构成新的组合词片段;根据所述新的组合词片段的词频信息和每个所述标准词的词频信息,确定所述新的组合词片段的成词判决值;若所述成词判决值大于预设阈值,根据所述新的组合词片段更新所述分词词典。
在本公开的示例性实施例中,所述根据所述组合词片段的词频信息和每个所述分词片段的词频信息,确定所述组合词片段的成词判决值,包括:获取每个所述分词片段的词频信息的乘积;将所述组合词片段的词频信息与所述乘积的比值确定为所述组合词片段的成词判决值。
在本公开的示例性实施例中,在对获取到的目标文本进行分词处理得到多个分词片段之后,所述方法还包括:对所述分词片段进行词性标注,得到词性标注结果;根据所述词性标注结果对所述多个分词片段进行依存句法分析,得到所述多个分词片段之间的句法依存关系。
在本公开的示例性实施例中,所述对所述分词片段进行词性标注,得到词性标注结果,包括:构建所述分词片段对应的语义向量;将所述语义向量输入训练好的词性标注模型中,根据所述词性标注模型的输出,得到所述分词片段的词性标注结果;其中,所述词性标注模型用于对所述语义向量进行解码,以确定所述分词片段的所述词性标注结果。
在本公开的示例性实施例中,所述方法还包括:获取每个分词片段在所述目标文本中的出现次数,以及,获取所述目标文本的总字数;根据每个所述分词片段在所述目标文本中的出现次数和所述目标文本的总字数的比值,确定每个所述分词片段的词频信息。
在本公开的示例性实施例中,所述方法还包括:对获取到的目标领域的词库文件进行预处理,所述预处理包括格式转换和文本去重处理;基于爬虫技术获取所述目标领域的关联文本;将所述预处理之后的词库文件和所述关联文本确定为所述目标文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司;泰康人寿保险有限责任公司,未经泰康保险集团股份有限公司;泰康人寿保险有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010448507.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高穿透性液晶显示面板及制备方法
- 下一篇:一种短路电流计算方法及系统