[发明专利]多音字消歧方法、装置、设备及存储介质在审
申请号: | 202211394521.0 | 申请日: | 2022-11-08 |
公开(公告)号: | CN116266266A | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 高羽;熊一瑾;叶建成 | 申请(专利权)人: | 美的集团(上海)有限公司;美的集团股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/126;G06F18/241;G06F18/214 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 袁雪 |
地址: | 201799 上海市青*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多音字 方法 装置 设备 存储 介质 | ||
本申请属于计算机技术领域,公开了一种多音字消歧方法、装置、设备及存储介质。该方法包括:对待识别文本序列进行转换,得到嵌入向量;利用预设编码器对嵌入向量进行编码,得到编码向量;根据编码向量生成多音字编码向量;利用分类器对多音字编码向量进行分类,得到多音字分类结果,分类器为预先基于字符权重和字音权重加权后的损失函数训练得到的。通过上述方式,从字符维度和字音维度对损失函数进行加权,使得训练的分类器对尾部类别的关注提升,从而消除了分类器执行多音字消歧处理时的长尾问题,提升了分类器的模型性能,进而提升了包含多音字的自然语言的识别精度。
技术领域
本申请涉及计算机技术领域,尤其涉及一种多音字消歧方法、装置、设备及存储介质。
背景技术
自然采集的训练数据本身不平衡,呈长尾分布是一普遍特性;具体到人类语言,根据齐普夫定律,语料数据本身也不平衡。训练数据的不平衡导致模型过拟合于头部类别,且忽略尾部类(自然分布状态下,数据稀少的类别)的学习,在尾部类上泛化效果差,例如分类问题,模型会倾向于将数据预测成训练集中数目多的种类。而特意采集更多尾类数据的人工成本高,采集难度大。如何提升包含多音字的自然语言的识别精度是当前亟待解决的问题。
上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
申请内容
本申请的主要目的在于提供一种多音字消歧方法、装置、设备及存储介质,旨在解决如何提升包含多音字的自然语言的识别精度的技术问题。
为实现上述目的,本申请提供了一种多音字消歧方法,所述方法包括以下步骤:
对待识别文本序列进行转换,得到嵌入向量;
利用预设编码器对所述嵌入向量进行编码,得到编码向量;
根据所述编码向量生成多音字编码向量;
利用分类器对所述多音字编码向量进行分类,得到多音字分类结果,所述分类器为预先基于字符权重和字音权重加权后的损失函数训练得到的。
可选地,所述方法还包括:
根据样本多音字编码向量对应的字符计算字符权重,并根据所述样本多音字编码向量对应的字音计算字音权重;
根据所述字符权重和所述字音权重对初始损失函数进行加权,得到目标损失函数;
根据所述样本多音字编码向量使用所述目标损失函数进行训练,得到所述分类器。
可选地,所述根据样本多音字编码向量对应的字符计算字符权重,包括:
获取总发音数,根据样本多音字编码向量对应的字符确定字符类别样本数的倒数在相应维度上的第一占比,根据所述总发音数与所述第一占比计算字符权重;
或,
获取总字符数,根据样本多音字编码向量对应的字符确定字符类别样本数的倒数在相应维度上的第一占比,根据所述总字符数与所述第一占比计算字符权重;
或,
获取总发音数,根据样本多音字编码向量对应的字符确定字符类别频率的倒数在相应维度上的第二占比,根据所述总发音数与所述第二占比计算字符权重;
或,
获取总字符数,根据样本多音字编码向量对应的字符确定字符类别频率的倒数在相应维度上的第二占比,根据所述总字符数与所述第二占比计算字符权重。
可选地,所述根据所述样本多音字编码向量对应的字音计算字音权重,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于美的集团(上海)有限公司;美的集团股份有限公司,未经美的集团(上海)有限公司;美的集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211394521.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有写辅助的存储器电路和方法
- 下一篇:使用Δ-∑调制器的电压调节装置和方法