[发明专利]一种基于BERT的汉语句子简化方法在审

申请号：	202011116726.3	申请日：	2020-10-19
公开（公告）号：	CN112214989A	公开（公告）日：	2021-01-12
发明（设计）人：	强继朋;陆欣雨;李云	申请（专利权）人：	扬州大学
主分类号：	G06F40/211	分类号：	G06F40/211;G06F40/216;G06F40/30;G06F40/289;G06F40/284
代理公司：	南京苏科专利代理有限责任公司 32102	代理人：	董旭东;陈栋智
地址：	225000 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 bert 汉语句子简化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于BERT的汉语句子简化方法，其特征在于，包括以下步骤：

步骤1)获取公开的语义资源包括现代汉语常用词词表W及对应的词频、预训练的汉语词嵌入模型Chinese-Word-Embedding、公开的义原数据库OpenHownet；

步骤2)假设需要简化的句子为s，利用分词工具对s进行分词和词性标注，获取s＝{(w₁,pos₁),(w₂,pos₂),…,(w_i,pos_i),…,(w_n,pos_n)}，w_i表示s中第i个词，pos_i表示w_i对应的词性，n表示s中词的数目，定义i的初值为1；

步骤3)对s中的词语w_i(1≤i≤n)，根据词性pos_i进行筛选；如果pos_i属于名词、动词、形容词和副词的一种，执行步骤4)；否则：令i＝i+1，继续执行步骤3)；

步骤4)对于句子s和复杂词w_i，利用公开的预训练Transformer语言模型BERT，获取k个候选替代词组成的集合CS_i＝{c₁,c₂,…,c_k}；

步骤5)采用多个特征对集合CS_i中的候选替代词进行排序，通过对多个排序结果求平均值，选择排名第一的候选替代词c_p和排名第二的候选替代词c_q，(k≥p,q≥1)；

步骤6)对比排名前二的候选替代词(c_p,c_q)和原有词语w_i，确定是否替换原来的词语。

2.根据权利要求1所述的一种基于BERT的汉语句子简化方法，其特征在于，所述步骤1)包括以下步骤：

步骤1.1)利用公开的现代汉语常用词词频表，获取包含的词语集合W及每个词语w∈W对应的词语频率f_w；

步骤1.2)利用词嵌入模型Word2Vector在大规模语料中训练好的汉语词嵌入模型Chinese-Word-Embedding，得到词语集合U及每个词语u∈U对应的向量表示v_u，每个向量由300维组成；

步骤1.3)获取公开的对词语进行义原表示的数据库OpenHownet，得到包含的词语集合T及每个词语t∈T包含的义原树集合sem_t＝{s₁,s₂,…,s_m}，m表示词语t在OpenHownet中包含的义原树数目。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于扬州大学，未经扬州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011116726.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载