[发明专利]一种强化中文实体语义特征的语言模型训练方法和系统在审
申请号: | 202211454800.1 | 申请日: | 2022-11-21 |
公开(公告)号: | CN116029300A | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 饶璐;杨兰;谭斌;周兴发;孙锐 | 申请(专利权)人: | 四川启睿克科技有限公司;四川长虹电子控股集团有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/279;G06F16/332;G06F18/2431;G06N3/049;G06N3/0442;G06N3/045;G06N3/08 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 赵以鹏 |
地址: | 610000 四川省成都市中国(四川)*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 强化 中文 实体 语义 特征 语言 模型 训练 方法 系统 | ||
1.一种强化中文实体语义特征的语言模型训练方法,其特征在于,包括以下步骤:
对语料数据进行文本规范化处理;
将所述语料数据分为标准集和候选集;
将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中,形成n个相似候选集,为标准集中的每条语料在候选集中找出top k个相似数据;
根据所述n个相似候选集,构建实体标准库、实体别名库和实体对立库;
根据所述实体标准库、实体别名库和实体对立库,构建用于训练语言模型的文本相似对和文本不相似对;
将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练,获得包含实体语义特征的语言模型。
2.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练方法,其特征在于,所述对语料数据进行文本规范化处理的方法,包括:对文本中标点符号的处理、对文本中数字的规范化处理、对文本中非中文字符串的处理、对文本中停用词的处理、对文本中繁简字体的转化方法、对文本句子长度的处理。
3.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练方法,其特征在于,将所述语料数据分为标准集和候选集的方法,包括:采用无监督的方法对所述语料数据进行粗分类后,采用人工方法对所述粗分类后的语料数据进行校对和纠正。
4.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练方法,其特征在于,将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中,形成n个相似候选集,为标准集中的每条语料在候选集中找出top k个相似数据之前,构建相似度模型的方法,包括:基于概率相似度的方法和基于信息相似度的方法。
5.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练方法,其特征在于,根据所述n个相似候选集,构建实体标准库,实体别名库和实体对立库的方法,包括:采用实体抽取模型对相似集中的实体进行抽取后,采用规则和人工参与的方法构建所述三种实体库。
6.根据权利要求5所述的一种强化中文实体语义特征的语言模型训练方法,其特征在于,采用实体抽取模型对相似集中的实体进行抽取之前,还包括:构建实体抽取模型的方法和训练实体抽取模型的方法。
7.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练方法,其特征在于,将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练之前,构建所述分类模型的方法,包括:构建初始化语言模型的方法,构建融合了实体信息的神经网络结构的方法。
8.根据权利要求7所述的一种强化中文实体语义特征的语言模型训练方法,其特征在于,构建所述分类模型的方法之后,还包括:损失函数的设定,以及迭代更新所述分类模型参数的方法的设定。
9.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练系统,其特征在于,包括:
文本规范单元,对语料数据进行文本规范化处理;
数据划分单元,将所述语料数据分为标准集和候选集;
文本匹配单元,将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中,形成n个相似候选集,为标准集中的每条语料在候选集中找出top k个相似数据;
实体库构建单元,根据所述n个相似候选集,构建实体标准库,实体别名库和实体对立库;
文本对构建单元,根据所述实体标准库,实体别名库和实体对立库,构建用于训练语言模型的文本相似对和文本不相似对;
语言模型训练单元,将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练,训练过程中对所述语言模型进行微调,获得包含了实体语义特征的语言模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川启睿克科技有限公司;四川长虹电子控股集团有限公司,未经四川启睿克科技有限公司;四川长虹电子控股集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211454800.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防雾涂料及其制备方法、防雾涂层
- 下一篇:一种数字化圆盘造球系统