[发明专利]一种基于BERT的汉语句子简化方法在审
申请号: | 202011116726.3 | 申请日: | 2020-10-19 |
公开(公告)号: | CN112214989A | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 强继朋;陆欣雨;李云 | 申请(专利权)人: | 扬州大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06F40/30;G06F40/289;G06F40/284 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 董旭东;陈栋智 |
地址: | 225000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 汉语 句子 简化 方法 | ||
1.一种基于BERT的汉语句子简化方法,其特征在于,包括以下步骤:
步骤1)获取公开的语义资源包括现代汉语常用词词表W及对应的词频、预训练的汉语词嵌入模型Chinese-Word-Embedding、公开的义原数据库OpenHownet;
步骤2)假设需要简化的句子为s,利用分词工具对s进行分词和词性标注,获取s={(w1,pos1),(w2,pos2),…,(wi,posi),…,(wn,posn)},wi表示s中第i个词,posi表示wi对应的词性,n表示s中词的数目,定义i的初值为1;
步骤3)对s中的词语wi(1≤i≤n),根据词性posi进行筛选;如果posi属于名词、动词、形容词和副词的一种,执行步骤4);否则:令i=i+1,继续执行步骤3);
步骤4)对于句子s和复杂词wi,利用公开的预训练Transformer语言模型BERT,获取k个候选替代词组成的集合CSi={c1,c2,…,ck};
步骤5)采用多个特征对集合CSi中的候选替代词进行排序,通过对多个排序结果求平均值,选择排名第一的候选替代词cp和排名第二的候选替代词cq,(k≥p,q≥1);
步骤6)对比排名前二的候选替代词(cp,cq)和原有词语wi,确定是否替换原来的词语。
2.根据权利要求1所述的一种基于BERT的汉语句子简化方法,其特征在于,所述步骤1)包括以下步骤:
步骤1.1)利用公开的现代汉语常用词词频表,获取包含的词语集合W及每个词语w∈W对应的词语频率fw;
步骤1.2)利用词嵌入模型Word2Vector在大规模语料中训练好的汉语词嵌入模型Chinese-Word-Embedding,得到词语集合U及每个词语u∈U对应的向量表示vu,每个向量由300维组成;
步骤1.3)获取公开的对词语进行义原表示的数据库OpenHownet,得到包含的词语集合T及每个词语t∈T包含的义原树集合semt={s1,s2,…,sm},m表示词语t在OpenHownet中包含的义原树数目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011116726.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动升降的配电柜设备
- 下一篇:一种具有置车板限位装置的立体停车库