[发明专利]一种基于BERT的汉语句子简化方法在审

专利信息
申请号: 202011116726.3 申请日: 2020-10-19
公开(公告)号: CN112214989A 公开(公告)日: 2021-01-12
发明(设计)人: 强继朋;陆欣雨;李云 申请(专利权)人: 扬州大学
主分类号: G06F40/211 分类号: G06F40/211;G06F40/216;G06F40/30;G06F40/289;G06F40/284
代理公司: 南京苏科专利代理有限责任公司 32102 代理人: 董旭东;陈栋智
地址: 225000 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 bert 汉语 句子 简化 方法
【权利要求书】:

1.一种基于BERT的汉语句子简化方法,其特征在于,包括以下步骤:

步骤1)获取公开的语义资源包括现代汉语常用词词表W及对应的词频、预训练的汉语词嵌入模型Chinese-Word-Embedding、公开的义原数据库OpenHownet;

步骤2)假设需要简化的句子为s,利用分词工具对s进行分词和词性标注,获取s={(w1,pos1),(w2,pos2),…,(wi,posi),…,(wn,posn)},wi表示s中第i个词,posi表示wi对应的词性,n表示s中词的数目,定义i的初值为1;

步骤3)对s中的词语wi(1≤i≤n),根据词性posi进行筛选;如果posi属于名词、动词、形容词和副词的一种,执行步骤4);否则:令i=i+1,继续执行步骤3);

步骤4)对于句子s和复杂词wi,利用公开的预训练Transformer语言模型BERT,获取k个候选替代词组成的集合CSi={c1,c2,…,ck};

步骤5)采用多个特征对集合CSi中的候选替代词进行排序,通过对多个排序结果求平均值,选择排名第一的候选替代词cp和排名第二的候选替代词cq,(k≥p,q≥1);

步骤6)对比排名前二的候选替代词(cp,cq)和原有词语wi,确定是否替换原来的词语。

2.根据权利要求1所述的一种基于BERT的汉语句子简化方法,其特征在于,所述步骤1)包括以下步骤:

步骤1.1)利用公开的现代汉语常用词词频表,获取包含的词语集合W及每个词语w∈W对应的词语频率fw

步骤1.2)利用词嵌入模型Word2Vector在大规模语料中训练好的汉语词嵌入模型Chinese-Word-Embedding,得到词语集合U及每个词语u∈U对应的向量表示vu,每个向量由300维组成;

步骤1.3)获取公开的对词语进行义原表示的数据库OpenHownet,得到包含的词语集合T及每个词语t∈T包含的义原树集合semt={s1,s2,…,sm},m表示词语t在OpenHownet中包含的义原树数目。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011116726.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top