首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]训练语料集构建方法、文本处理方法及装置在审

申请号：	202210688808.8	申请日：	2022-06-17
公开（公告）号：	CN115033753A	公开（公告）日：	2022-09-09
发明（设计）人：	贾承勋;李长亮	申请（专利权）人：	北京金山数字娱乐科技有限公司
主分类号：	G06F16/9032	分类号：	G06F16/9032;G06F16/906;G06F40/211;G06F40/242;G06F40/279;G06F40/289;G06F40/30
代理公司：	北京智信禾专利代理有限公司 11637	代理人：	李琪
地址：	100085 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	训练语料构建方法文本处理装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种训练语料集构建方法，其特征在于，包括：

根据获取到的至少一个原始样本语料，构建短语词典，其中，所述短语词典包括短语和所述短语对应的短语特征信息；

将第一原始样本语料中的目标短语替换为相似短语，获得扩展样本语料，其中，所述第一原始样本语料为所述至少一个原始样本语料中包括所述目标短语的任一原始样本语料；

根据所述原始样本语料和所述扩展样本语料，构建训练语料集。

2.根据权利要求1所述的训练语料集构建方法，其特征在于，所述根据获取到的至少一个原始样本语料，构建短语词典，包括：

对所述至少一个原始样本语料进行分词，获得至少两个分词词语；

根据预设语法规则，从所述至少两个分词词语中抽取短语，并确定所述短语的短语特征信息；

根据所述短语和所述短语对应的短语特征信息，构建所述短语词典。

3.根据权利要求1所述的训练语料集构建方法，其特征在于，所述将第一原始样本语料中的目标短语替换为相似短语，获得扩展样本语料之前，还包括：

确定所述短语词典中短语特征信息满足预设替换条件的目标短语；

根据所述目标短语的第一词向量以及预设短语库中参考短语的第二词向量，确定所述目标短语对应的相似短语。

4.根据权利要求3所述的训练语料集构建方法，其特征在于，所述根据所述目标短语的第一词向量以及预设短语库中参考短语的第二词向量，确定所述目标短语对应的相似短语，包括：

分别确定所述第一词向量和所述参考短语的第二词向量之间的相似度；

对获得的各个相似度进行排序，根据排序结果选取目标数值个相似短语。

5.根据权利要求4所述的训练语料集构建方法，其特征在于，所述短语特征信息为词频，所述预设替换条件为词频小于词频阈值；

所述对获得的各个相似度进行排序，根据排序结果选取目标数值个相似短语之前，还包括：

根据所述目标短语对应的词频与所述词频阈值的差值，确定所述目标数值。

6.根据权利要求1-5任一项所述的训练语料集构建方法，其特征在于，所述根据所述原始样本语料和所述扩展样本语料，构建训练语料集，包括：

通过评估模型对所述扩展样本语料进行打分；

根据所述扩展样本语料的得分，选取融合样本语料；

将所述原始样本语料和所述融合样本语料合并，获得所述训练语料集。

7.根据权利要求1-5任一项所述的训练语料集构建方法，其特征在于，所述原始样本语料为双语语料，所述双语语料包括第一语种样本和对应的第二语种样本；

所述根据获取到的至少一个原始样本语料，构建短语词典，包括：

对所述第一语种样本进行分词，获得至少两个第一语种分词词语，并对所述第二语种样本进行分词，获得至少两个第二语种分词词语；

对所述第一语种分词词语和所述第二语种分词词语进行词对齐处理，获得词对齐信息；

根据预设语法规则，从所述至少两个第一语种分词词语中抽取第一语种短语，并确定所述第一语种短语的短语特征信息；

根据所述词对齐信息，从所述至少两个第二语种分词词语中确定所述第一语种短语对应的第二语种短语；

根据所述第一语种短语、对应的第二语种短语以及对应的短语特征信息，构建所述短语词典。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司，未经北京金山数字娱乐科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210688808.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种确定CBCT图像中种植体位置的方法及装置
下一篇：基于RPA和AI实现IA的机器人运行状态的方法及装置

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top