[发明专利]一种强化中文实体语义特征的语言模型训练方法和系统在审
申请号: | 202211454800.1 | 申请日: | 2022-11-21 |
公开(公告)号: | CN116029300A | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 饶璐;杨兰;谭斌;周兴发;孙锐 | 申请(专利权)人: | 四川启睿克科技有限公司;四川长虹电子控股集团有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/279;G06F16/332;G06F18/2431;G06N3/049;G06N3/0442;G06N3/045;G06N3/08 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 赵以鹏 |
地址: | 610000 四川省成都市中国(四川)*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种强化中文实体语义特征的语言模型训练方法和系统,包括以下步骤:对语料数据进行文本规范化处理;将所述语料数据分为标准集和候选集;将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中,形成n个相似候选集,为标准集中的每条语料在候选集中找出top k个相似数据;根据所述n个相似候选集,构建实体标准库、实体别名库和实体对立库;根据所述实体标准库、实体别名库和实体对立库,构建用于训练语言模型的文本相似对和文本不相似对;将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练,获得包含实体语义特征的语言模型。 | ||
搜索关键词: | 一种 强化 中文 实体 语义 特征 语言 模型 训练 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川启睿克科技有限公司;四川长虹电子控股集团有限公司,未经四川启睿克科技有限公司;四川长虹电子控股集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202211454800.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种防雾涂料及其制备方法、防雾涂层
- 下一篇:一种数字化圆盘造球系统