[发明专利]基于语义信息增强的汉字语句分类方法在审

专利信息
申请号: 202211049581.9 申请日: 2022-08-30
公开(公告)号: CN115203422A 公开(公告)日: 2022-10-18
发明(设计)人: 李波;黄焱鑫 申请(专利权)人: 重庆理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/151;G06F40/242;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司: 重庆博凯知识产权代理有限公司 50212 代理人: 张乙山
地址: 400054 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 语义 信息 增强 汉字 语句 分类 方法
【说明书】:

发明具体涉及基于语义信息增强的汉字语句分类方法,包括:将待分类的汉字语句输入经过训练的分类模型中,输出对应的预测分类标签;训练时:首先基于训练数据集构建与部首关联的区分度字典;其次对训练数据集中的汉字语句进行简繁汉字转换,得到简体和繁体的汉字语句;然后提取汉字语句的分类表示和上下文表示;同时结合区分度字典确定汉字语句中的关键字,并结合注意力机制为各个关键字赋予注意力权重,进而计算简体和繁体的文本最终表示;最后分别基于简体和繁体的文本最终表示生成预测分类标签并融合得到总体预测分类标签,以优化分类模型的模型参数。本发明能够有效考虑汉字简化过程中的汉字语义损失,并消除区分度不高的汉字对语句的干扰。

技术领域

本发明涉及自然语言处理技术领域,具体涉及基于语义信息增强的汉字语句分类方法。

背景技术

近年来,无论是在图像、音频、文本等各个方向,深度学习都有着巨大发展。在文本领域,预训练模型BERT的提出更是一个划时代的工作。在BERT的基础上,又诞生了诸如ALBERT、RoBERTa等各种改进模型,但这些模型大多以英文等拼音文字为训练对象。正是由于大部分模型最初都是为英语设计的,导致在当前的模型研究中,对汉字语句的研究还不是完全成熟。

从仓颉造字到现在正在使用的简体字,汉字一步一步演变至今。与拉丁文、英文等拼音文字不同,汉字是非拼音文字,它的象形结构蕴含着更多的信息。为了更好地完成汉字语句的处理,中文语言领域的相关研究正在高速发展。在预训练模型上,百度的中文预训练模型ernie正在被广泛应用于他的任务当中。而对于汉字这一象形文字,也有一些方案对这种结构加以应用,如《改进汉字字形相似度的计算方法》就将偏旁部首的知识表示进行了运用,香侬科技提出的融合字形与拼音信息的预训练模型ChineseBERT、Tao对于汉字的偏旁部首特点提出的RAM模型等都将汉字的结构特征融于深度学习模型的信息中。

申请人发现,为了方便民众的使用与学习,更快地扫除文盲和普及教育,将一部分不同的繁体汉字简化成了相同的简体汉字,而繁体简化成简体的过程中,损失了汉字原有的先验知识和概念,进而导致汉字出现了语义损失的问题。同时,汉字语句中会有很多比较常见的汉字,比如你、我、他等,这些汉字出现的频率很高,但这些汉字的区分度低,对于整体语句的影响力也很低,例如每一个语句都存在着一个“他”字,那么这个“他”字是无法有效的对分类的准确率产生贡献的,这些区分度不高的汉字对整体语句造成了干扰。因此,如何设计一种能够有效考虑汉字简化过程中的汉字语义损失,且能够消除区分度不高的汉字对语句干扰的汉字语句分类方法是亟需解决的技术问题。

发明内容

针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于语义信息增强的汉字语句分类方法,以能够有效考虑汉字简化过程中的汉字语义损失,并消除区分度不高的汉字对语句的干扰,进而能够融合汉字结构来增强汉字语句的语义信息,从而能够提高汉字语句分类的准确性和实用性。

为了解决上述技术问题,本发明采用了如下的技术方案:

基于语义信息增强的汉字语句分类方法,包括:

S1:获取待分类的汉字语句;

S2:将待分类的汉字语句输入经过训练的分类模型中,输出对应的预测分类标签;

训练分类模型时,首先基于训练数据集构建与部首关联的区分度字典;其次对训练数据集中的汉字语句进行简繁汉字转换,得到简体和繁体的汉字语句;然后提取简体和繁体汉字语句的分类表示和上下文表示;同时结合区分度字典确定汉字语句中的关键字,并结合注意力机制为各个关键字赋予注意力权重,进而结合分类表示和上下文表示计算简体和繁体的文本最终表示;最后分别基于简体和繁体的文本最终表示生成预测分类标签,进而融合简体和繁体的预测分类标签得到总体预测分类标签,并基于总体预测分类标签优化分类模型的模型参数;

S3:基于分类模型输出的预测分类标签生成待分类汉字语句的分类结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆理工大学,未经重庆理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211049581.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top