[发明专利]首字母缩写词的消歧方法、系统、电子设备及存储介质在审

专利信息
申请号: 202110633408.2 申请日: 2021-06-07
公开(公告)号: CN113449516A 公开(公告)日: 2021-09-28
发明(设计)人: 陈海波;罗志鹏;潘春光 申请(专利权)人: 深延科技(北京)有限公司
主分类号: G06F40/274 分类号: G06F40/274;G06F16/35
代理公司: 苏州领跃知识产权代理有限公司 32370 代理人: 王宁
地址: 100081 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 首字母 缩写 方法 系统 电子设备 存储 介质
【权利要求书】:

1.一种首字母缩写词的消歧方法,所述首字母缩写词由构成英文词组的多个英文单词中的各英文单词的首字母构成,其特征在于,所述消歧方法包括:

识别文档的句子中的目标首字母缩写词;

将所识别到的所述目标首字母缩写词与预先创建的数据集相匹配,所述数据集中记载有预定数量的首字母缩写词及其对应的英文词组的全称,从而通过所述匹配,获取所识别到的目标首字母缩写词所对应的英文词组的全称;以及

在获取到的全称为1个的情况下,输出所述全称;并且在获取到的全称大于1个的情况下,经由预先训练好的二分类模型输出与所述句子的句意相适应的1个全称。

2.根据权利要求1所述的首字母缩写词的消歧方法,其特征在于,预先创建所述数据集的方法包括:

经由现有的数据库采集预定数量的英文论文、期刊或报告,

对于采集到的所述英文论文、期刊或报告中出现的首字母缩写词,统计并整理其全称,并且存储在所述数据集中。

3.根据权利要求2所述的首字母缩写词的消歧方法,其特征在于,所述方法还包括:

经由采集到的所述预定数量的英文论文、期刊或报告来构建标注样本,使得每一个标注样本包含1个带有首字母缩写词的句子,以及该首字母缩写词在句子中的正确全称,并且将该标注样本存储在训练集中,所述二分类模型是利用所述训练集训练得到的。

4.根据权利要求1所述的首字母缩写词的消歧方法,其特征在于,利用如下步骤经由预先训练好的二分类模型进行所述输出:

给定包含目标首字母缩写词的句子,将该句子结合该目标首字母缩写词的不同的全称作为候选输入所述二分类模型中,使用所述二分类模型对每一个候选进行预测,获得表示对应的全称是该首字母缩写词在当前句子中的正确全称的可能性的预测值,并且将预测值最高的全称输出,以作为上述目标首字母缩写词在当前句子中的全称。

5.根据权利要求4所述的首字母缩写词的消歧方法,其特征在于,所述使用所述二分类模型对每一个候选进行预测之前,所述方法还包括:

使用句段嵌入处理多个输入语句,将目标首字母缩写词对应的候选全称作为第一个输入句段,将给定的句子作为第二个输入句段,用第一特殊符标记第一个输入句段的开头,用第二特殊符标记两个输入句段的间隔。

6.根据权利要求5所述的首字母缩写词的消歧方法,其特征在于,所述使用所述二分类模型对每一个候选进行预测,包括:

将由所述句段嵌入处理所处理好的数据输入所述二分类模型来获取每个token对应的嵌入表示;

计算首字母缩写词开始和结束位置的嵌入表示平均值,并将该平均值与句子开头的第一特殊符的位置进行向量拼接;以及

将拼接得到的向量通过第一dropout层、第一前向传播层后,通过激活函数ReLU,之后再通过第二dropout层、第二前向传播层,最后通过激活函数Sigmoid得到一个在(0,1)区间的所述预测值。

7.根据权利要求5所述的首字母缩写词的消歧方法,其特征在于,所述使用所述二分类模型对每一个候选进行预测之前,所述方法还包括:

添加两个特殊标记start和end来标记所述首字母缩写词在句子中的开始和结束位置。

8.根据权利要求1-7的任意一项所述的首字母缩写词的消歧方法,其特征在于,预先训练所述二分类模型的方法包括:

选取基础预训练模型;

在给定的训练集上,利用任务自适应预训练方式对所述基础预训练模型进行训练,得到预训练模型,在所述预训练模型上利用动态负采样技术和对抗训练的方式进行训练,得到阶段二分类模型,以及

利用所述阶段二分类模型对无标注数据集进行伪标签判断,得到新的可以加入训练的数据,更新训练集,并且在新的训练集上重复训练过程得到最终的所述二分类模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深延科技(北京)有限公司,未经深延科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110633408.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top