[发明专利]文本向量表征模型的训练和文本聚类有效
申请号: | 202110862902.6 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113553858B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | 尚航;吕廷迅 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F18/23;G06F18/22 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 田硕;苏银虹 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 向量 表征 模型 训练 | ||
本公开关于一种文本向量表征模型的训练方法和装置及文本聚类方法和装置。所述训练方法包括:获取文本样本;将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征;将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。
技术领域
本公开涉及自然语言处理(NLP)技术领域,更具体地说,涉及一种文本向量表征模型的训练方法和装置及文本聚类方法和装置。
背景技术
通常利用文本样本(例如,海量的商品标题)对传统的自然语言处理(NLP)模型进行训练,然后利用训练后的NLP模型获取输入文本的文本向量表征,但是,通常训练得到的NLP模型的实际应用效果欠佳。例如,通过传统的NLP模型获取的文本向量表征的整体数据噪点偏高,文本向量表征的准确率和召回率整体偏低。当利用通过传统的NLP模型获取的文本向量表征进行文本聚类时,文本聚类后得到的文本聚类索引的整体数据噪点偏高,文本聚类索引的召回率和准确率也偏低。因此,需要改善用于获取文本向量表征的机器学习模型的训练方法以及相应的文本聚类方法。
发明内容
本公开提供一种文本向量表征模型的训练方法和装置及文本聚类方法和装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
根据本公开实施例的第一方面,提供一种文本向量表征模型的训练方法,所述训练方法包括:获取文本样本;将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征;将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。
可选地,所述训练方法还包括:基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数。
可选地,所述训练方法还包括:通过将每次迭代训练得到的更新参数后的所述文本向量表征模型和更新参数后的所述辅助文本向量表征模型用于下一次迭代训练,来迭代执行如上所述的训练方法,直到所述文本向量表征模型收敛,得到训练后的所述文本向量表征模型。
可选地,所述将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵,包括:
将文本样本转换为索引向量,所述索引向量中的每个索引元素分别表示文本样本中对应的单个字符或用于满足索引向量长度限制的补余元素;将索引向量转换为第一文本输入矩阵;对索引向量进行掩码处理,将掩码处理后的索引向量转换为所述第二文本输入矩阵。
可选地,所述索引向量和所述掩码处理后的索引向量通过与相同的预定词向量矩阵进行映射,来分别转换为所述第一文本输入矩阵和所述第二文本输入矩阵。
可选地,基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数包括:基于所述文本向量表征模型的更新后的参数,利用指数移动平均算法确定所述辅助文本向量表征模型的参数更新函数;利用所述参数更新函数更新所述辅助文本向量表征模型的参数。
可选地,第一文本向量表征与第二文本向量表征之间的相似度损失值是通过以下步骤得到的:确定第一文本向量表征与第二文本向量表征之间的相似度;基于所述相似度,确定第一文本向量表征与第二文本向量表征之间的相似度损失值。
可选地,所述训练方法还包括:对所述第一文本向量表征进行线性映射;将所述第一文本向量表征替换为线性映射后的第一文本向量表征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110862902.6/2.html,转载请声明来源钻瓜专利网。