首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]端到端敏感文本召回模型的训练方法、敏感文本召回方法在审

申请号：	202210633241.4	申请日：	2022-06-06
公开（公告）号：	CN114943228A	公开（公告）日：	2022-08-26
发明（设计）人：	刘伟乐	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	罗岚
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	端到端敏感文本召回模型训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种端到端敏感文本召回模型的训练方法，包括：

获取敏感文本拦截场景中的预设词表和第一随机文本语料；其中，所述预设词表之中词项对应的文本为敏感文本；

根据所述预设词表构建正样本数据，并根据所述第一随机文本语料构建负样本数据；

根据所述正样本数据和所述负样本数据，通过人工评估方式和多样本拼接的采样方式对初始的文本分类模型执行循环迭代训练，得到训练完毕后模型指标达到目标指标的文本分类模型；以及

根据所述模型指标达到目标指标的文本分类模型的模型参数，生成端到端敏感文本召回模型；其中，所述端到端敏感文本召回模型已经学习得到词表召回能力。

2.如权利要求1所述的方法，其中，所述根据所述正样本数据和所述负样本数据，通过人工评估方式和多样本拼接的采样方式对初始的文本分类模型执行循环迭代训练，包括：

将所述正样本数据和所述负样本数据作为训练样本并划分成训练集和验证集；

根据所述训练集和所述验证集，对文本分类模型进行训练，以得到最优模型；

获取测试集，并根据所述测试集对所述最优模型进行评估，得到模型评估结果；

根据所述模型评估结果和所述测试集，通过人工评估方式和多样本拼接的采样方式更新所述训练样本；

将更新后的训练样本重新划分成训练集和验证集，并执行所述根据所述训练集和所述验证集，对文本分类模型进行训练，以得到最优模型的步骤，直至训练完毕后模型指标达到目标指标。

3.如权利要求2所述的方法，其中，所述测试集中包括召回样本和第二随机文本语料；所述根据所述测试集对所述最优模型进行评估，得到模型评估结果，包括：

将所述测试集之中所述召回样本输入至所述最优模型，获得所述最优模型输出的第一预测结果；

根据所述第一预测结果和所述召回样本对应的真实标签信息，确定所述最优模型的召回率；

将所述测试集之中所述第二随机文本语料输入至所述最优模型，获得所述最优模型输出的第二预测结果；

根据所述第二预测结果和所述第二随机文本语料对应的真实标签信息，确定所述最优模型的精确率。

4.如权利要求3所述的方法，其中，所述根据所述模型评估结果和所述测试集，通过人工评估方式和多样本拼接的采样方式更新所述训练样本，包括：

响应于所述召回率小于第一阈值，获取对所述第一预测结果中预测为负例的第一人工评估结果，并基于所述第一人工评估结果，将所述召回样本中被误预测为负例的样本加入待更新样本集中；

和/或，响应于所述精确率小于第二阈值，获取对所述第二预测结果中预测为正例的第二人工评估结果，并基于所述第二人工评估结果，将所述第二随机文本语料中被误预测为正例的文本语料；

将所述待更新样本集之中每N个样本拼接成一个样本，并将经过拼接处理后得到的样本更新至所述训练样本；其中，所述N为大于1的整数。

5.如权利要求4所述的方法，其中，所述N为3。

6.如权利要求2至5中任一项所述的方法，其中，所述文本分类模型包括第一长短期记忆网络LSTM层、平均池化层、第二LSTM层、最大池化层、拼接Concat层、缩减Dropout层和分类层；其中，

所述第一LSTM层提取样本的文本特征；

所述平均池化层对所述文本特征进行池化处理，以得到第一路特征；

所述第二LSTM层对所述第一LSTM层之中最后一个隐藏层输出进行特征提取，并将提取的特征输入至所述最大池化层；

所述最大池化层对所述第二LSTM层的输出进行池化处理，以得到第二路特征；

所述拼接Concat层将所述第一路特征和所述第二路特征进行拼接，以得到拼接特征；

所述缩减Dropout层对所述拼接特征进行Dropout操作；

所述分类层对所述缩减Dropout层输出的特征进行分类处理，以得到分类的预测值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司，未经北京百度网讯科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210633241.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种建筑施工用具有防掉落保护的建筑施工平台
下一篇：基于数据分析的企业管理咨询服务系统

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top