[发明专利]基于语义信息增强的汉字语句分类方法在审
申请号: | 202211049581.9 | 申请日: | 2022-08-30 |
公开(公告)号: | CN115203422A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 李波;黄焱鑫 | 申请(专利权)人: | 重庆理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/151;G06F40/242;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 张乙山 |
地址: | 400054 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 信息 增强 汉字 语句 分类 方法 | ||
本发明具体涉及基于语义信息增强的汉字语句分类方法,包括:将待分类的汉字语句输入经过训练的分类模型中,输出对应的预测分类标签;训练时:首先基于训练数据集构建与部首关联的区分度字典;其次对训练数据集中的汉字语句进行简繁汉字转换,得到简体和繁体的汉字语句;然后提取汉字语句的分类表示和上下文表示;同时结合区分度字典确定汉字语句中的关键字,并结合注意力机制为各个关键字赋予注意力权重,进而计算简体和繁体的文本最终表示;最后分别基于简体和繁体的文本最终表示生成预测分类标签并融合得到总体预测分类标签,以优化分类模型的模型参数。本发明能够有效考虑汉字简化过程中的汉字语义损失,并消除区分度不高的汉字对语句的干扰。
技术领域
本发明涉及自然语言处理技术领域,具体涉及基于语义信息增强的汉字语句分类方法。
背景技术
近年来,无论是在图像、音频、文本等各个方向,深度学习都有着巨大发展。在文本领域,预训练模型BERT的提出更是一个划时代的工作。在BERT的基础上,又诞生了诸如ALBERT、RoBERTa等各种改进模型,但这些模型大多以英文等拼音文字为训练对象。正是由于大部分模型最初都是为英语设计的,导致在当前的模型研究中,对汉字语句的研究还不是完全成熟。
从仓颉造字到现在正在使用的简体字,汉字一步一步演变至今。与拉丁文、英文等拼音文字不同,汉字是非拼音文字,它的象形结构蕴含着更多的信息。为了更好地完成汉字语句的处理,中文语言领域的相关研究正在高速发展。在预训练模型上,百度的中文预训练模型ernie正在被广泛应用于他的任务当中。而对于汉字这一象形文字,也有一些方案对这种结构加以应用,如《改进汉字字形相似度的计算方法》就将偏旁部首的知识表示进行了运用,香侬科技提出的融合字形与拼音信息的预训练模型ChineseBERT、Tao对于汉字的偏旁部首特点提出的RAM模型等都将汉字的结构特征融于深度学习模型的信息中。
申请人发现,为了方便民众的使用与学习,更快地扫除文盲和普及教育,将一部分不同的繁体汉字简化成了相同的简体汉字,而繁体简化成简体的过程中,损失了汉字原有的先验知识和概念,进而导致汉字出现了语义损失的问题。同时,汉字语句中会有很多比较常见的汉字,比如你、我、他等,这些汉字出现的频率很高,但这些汉字的区分度低,对于整体语句的影响力也很低,例如每一个语句都存在着一个“他”字,那么这个“他”字是无法有效的对分类的准确率产生贡献的,这些区分度不高的汉字对整体语句造成了干扰。因此,如何设计一种能够有效考虑汉字简化过程中的汉字语义损失,且能够消除区分度不高的汉字对语句干扰的汉字语句分类方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于语义信息增强的汉字语句分类方法,以能够有效考虑汉字简化过程中的汉字语义损失,并消除区分度不高的汉字对语句的干扰,进而能够融合汉字结构来增强汉字语句的语义信息,从而能够提高汉字语句分类的准确性和实用性。
为了解决上述技术问题,本发明采用了如下的技术方案:
基于语义信息增强的汉字语句分类方法,包括:
S1:获取待分类的汉字语句;
S2:将待分类的汉字语句输入经过训练的分类模型中,输出对应的预测分类标签;
训练分类模型时,首先基于训练数据集构建与部首关联的区分度字典;其次对训练数据集中的汉字语句进行简繁汉字转换,得到简体和繁体的汉字语句;然后提取简体和繁体汉字语句的分类表示和上下文表示;同时结合区分度字典确定汉字语句中的关键字,并结合注意力机制为各个关键字赋予注意力权重,进而结合分类表示和上下文表示计算简体和繁体的文本最终表示;最后分别基于简体和繁体的文本最终表示生成预测分类标签,进而融合简体和繁体的预测分类标签得到总体预测分类标签,并基于总体预测分类标签优化分类模型的模型参数;
S3:基于分类模型输出的预测分类标签生成待分类汉字语句的分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆理工大学,未经重庆理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211049581.9/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置