[发明专利]多音字消歧方法、装置、设备及存储介质在审

申请号：	202211394521.0	申请日：	2022-11-08
公开（公告）号：	CN116266266A	公开（公告）日：	2023-06-20
发明（设计）人：	高羽;熊一瑾;叶建成	申请（专利权）人：	美的集团（上海）有限公司;美的集团股份有限公司
主分类号：	G06F40/232	分类号：	G06F40/232;G06F40/126;G06F18/241;G06F18/214
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	袁雪
地址：	201799 上海市青***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	多音字方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请属于计算机技术领域，公开了一种多音字消歧方法、装置、设备及存储介质。该方法包括：对待识别文本序列进行转换，得到嵌入向量；利用预设编码器对嵌入向量进行编码，得到编码向量；根据编码向量生成多音字编码向量；利用分类器对多音字编码向量进行分类，得到多音字分类结果，分类器为预先基于字符权重和字音权重加权后的损失函数训练得到的。通过上述方式，从字符维度和字音维度对损失函数进行加权，使得训练的分类器对尾部类别的关注提升，从而消除了分类器执行多音字消歧处理时的长尾问题，提升了分类器的模型性能，进而提升了包含多音字的自然语言的识别精度。

技术领域

本申请涉及计算机技术领域，尤其涉及一种多音字消歧方法、装置、设备及存储介质。

背景技术

自然采集的训练数据本身不平衡，呈长尾分布是一普遍特性；具体到人类语言，根据齐普夫定律，语料数据本身也不平衡。训练数据的不平衡导致模型过拟合于头部类别，且忽略尾部类(自然分布状态下，数据稀少的类别)的学习，在尾部类上泛化效果差，例如分类问题，模型会倾向于将数据预测成训练集中数目多的种类。而特意采集更多尾类数据的人工成本高，采集难度大。如何提升包含多音字的自然语言的识别精度是当前亟待解决的问题。

上述内容仅用于辅助理解本申请的技术方案，并不代表承认上述内容是现有技术。

申请内容

本申请的主要目的在于提供一种多音字消歧方法、装置、设备及存储介质，旨在解决如何提升包含多音字的自然语言的识别精度的技术问题。

为实现上述目的，本申请提供了一种多音字消歧方法，所述方法包括以下步骤：

对待识别文本序列进行转换，得到嵌入向量；

利用预设编码器对所述嵌入向量进行编码，得到编码向量；

根据所述编码向量生成多音字编码向量；

利用分类器对所述多音字编码向量进行分类，得到多音字分类结果，所述分类器为预先基于字符权重和字音权重加权后的损失函数训练得到的。

可选地，所述方法还包括：

根据样本多音字编码向量对应的字符计算字符权重，并根据所述样本多音字编码向量对应的字音计算字音权重；

根据所述字符权重和所述字音权重对初始损失函数进行加权，得到目标损失函数；

根据所述样本多音字编码向量使用所述目标损失函数进行训练，得到所述分类器。