[发明专利]一种中文文本分词的方法、装置、存储介质及电子设备在审
申请号: | 201910650446.1 | 申请日: | 2019-07-18 |
公开(公告)号: | CN110348023A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 李晓雅 | 申请(专利权)人: | 北京香侬慧语科技有限责任公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 丁曼曼 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标字 字图像 目标文本 分词 向量 存储介质 电子设备 中文文本 序列标注 集合 编码处理 分词处理 集合生成 字形特征 模糊性 有效地 中文 字体 登录 | ||
本发明提供了一种中文文本分词的方法、装置、存储介质及电子设备,其中,该方法包括:获取中文的目标文本,并确定目标文本中的目标字;确定目标字在不同字体下的字图像,并生成目标字的字图像集合;对目标字的字图像集合进行编码处理,生成目标字的字向量;根据目标文本所有的字向量进行序列标注处理,基于序列标注处理结果确定目标文本的分词。通过本发明实施例提供的中文文本分词的方法、装置、存储介质及电子设备,通过包含多个字图像的字图像集合生成目标字的字向量,可以更加综合、全面地确定每个目标字所包含的字形特征;基于该字向量进行分词处理,可以更加有效地识别未登录词,且可以降低中文词边界的模糊性。
技术领域
本发明涉及分词处理的技术领域,具体而言,涉及一种中文文本分词的方法、装置、存储介质及电子设备。
背景技术
目前,基于深度学习的序列标注模型为传统的基于词典和匹配的中文分词工具提供了一种建模方式。但是目前的中文分词模型的分词效果以及准确率等还有待提升。
影响中文分词的效果存在多个原因,一个原因是中文中有大量的未登录词。未登录词在中文分词任务主要集中在组织名称、人名、地点名称等一些命名实体上。另一个原因是中文词义复杂多样,导致中文词边界模糊性较高,有时难以准确地确定中文分词时的边界,导致分词效果较差。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种中文文本分词的方法、装置、存储介质及电子设备。
第一方面,本发明实施例提供了一种中文文本分词的方法,包括:
获取中文的目标文本,并确定所述目标文本中的目标字;
确定所述目标字在不同字体下的字图像,并生成所述目标字的字图像集合,所述字图像集合包含所述目标字的多个字图像;
对所述目标字的所述字图像集合进行编码处理,生成所述目标字的字向量;
根据所述目标文本所有的所述字向量进行序列标注处理,基于序列标注处理结果确定所述目标文本的分词。
在一种可能的实现方式中,所述对所述目标字的所述字图像集合进行编码处理,生成所述目标字的字向量,包括:
确定所述字图像集合中每个字图像的图像矩阵,对所述字图像集合中D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者
确定所述字图像集合中每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述字图像集合中D个字图像的图像编码生成所述目标字的字向量。
在一种可能的实现方式中,所述对所述目标字的所述字图像集合进行编码处理,包括:
基于卷积神经网络对所述目标字的所述字图像集合进行编码处理,所述卷积神经网络的至少一个池化层输出c×c的第一中间向量;
其中,所述池化层的过滤器尺寸为s×s,且步长也为s;输入至所述池化层的向量为a×a的向量,且a=s×c;s和c均为预设的整数,且c≥2。
在一种可能的实现方式中,所述对所述目标字的所述字图像集合进行编码处理包括:
基于卷积神经网络对所述目标字的所述字图像集合进行编码处理,所述卷积神经网络的至少一个卷积层基于H个1×1的卷积核,将输入至所述卷积层的c×c的向量转换为c×c×H的第二中间向量;c为预设的整数,且c≥2。
在一种可能的实现方式中,该方法还包括:
建立总损失函数L,在训练时基于所述总损失函数对模型的参数进行优化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京香侬慧语科技有限责任公司,未经北京香侬慧语科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910650446.1/2.html,转载请声明来源钻瓜专利网。