[发明专利]一种基于BERT的汉语句子简化方法在审
申请号: | 202011116726.3 | 申请日: | 2020-10-19 |
公开(公告)号: | CN112214989A | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 强继朋;陆欣雨;李云 | 申请(专利权)人: | 扬州大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06F40/30;G06F40/289;G06F40/284 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 董旭东;陈栋智 |
地址: | 225000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 汉语 句子 简化 方法 | ||
本发明公开了一种基于BERT的汉语句子简化方法,包括以下步骤:步骤1)获取汉语常用词词频表,预训练汉语嵌入模型,义元数据库并获取词语集合,词频,词向量表示与义元表示;步骤2)假设需要简化的句子为
技术领域
本发明涉及中文文本简化领域,特别涉及一种基于BERT的汉语句子简化方法。
背景技术
随着中国对外开放水平的提高,中文在国际上的影响力越来越大,很多外国人都会通过各种渠道学习中文,而中文作为一种象形语言,学习难度很大,同时,词汇量的缺乏很大程度上影响了对学习者对阅读材料的理解程度。在以往的研究中已经被证实,如果学习者理解了文本中90%的词汇,即使面对长而复杂的文本,文本所表达的意思也很容易被理解。另外,文本简化对母语是中文的人也有很大的帮助,特别是对那些文化程度不高,认知或语言障碍的弱势群体。
句子简化中的词汇简化算法目标是用简单词替代句子中的复杂词,因此,替换后的句子可以大大降低对用户的词汇量要求。目前中文领域暂无公开的中文词汇简化方法。在已有的英文文本简化研究中,词汇简化算法的步骤大致可以分为:复杂词识别、候选词生成、候选词排序。词汇简化算法按照候选替代词的产生,大致可以分为三类:第一类是基于词典的简化算法,该类算法主要利用词典产生复杂词的同义词,作为候选替代词;第二类算法基于并行语料的算法,最常用的并行语料是从正常的维基百科和儿童版的英文维基百科中获取,通过匹配算法分别两个不同维基百科中选择句子作为平行句子对,然后,从平行句子对中获取规则,这些规则用来产生复杂词的候选替代词;第三类算法基于词嵌入模型,从词嵌入模型中获取词语的向量表示,利用词语相似度计算方法,寻找复杂词最相似的词语集合作为候选替代词。
然而,前两类算法具有很大的局限性,首先,词典的构造与维护的代价很大,高质量的并行语料提取非常困难,其次,这两类算法对复杂词的覆盖也是有限的。更重要的是,以上三类算法最大的问题还是产生候选词的过程中,只考虑了复杂词本身,忽略了复杂词的上下文,将不可避免的产生很多不适合的候选词,给系统后面的步骤带来很大干扰。
发明内容
本发明的目的是克服现有技术缺陷,提供一种基于BERT的汉语句子简化方法,利用采用普通文本进行预训练的Transformer语言模型进行句子简化,充分考虑了复杂词的上下文和复杂词本身,可以更好地产生复杂词的候选替代词,从而更好地对句子进行简化。
本发明的目的是这样实现的:一种基于BERT的汉语句子简化方法,包括以下步骤:
步骤1)获取公开的语义资源包括现代汉语常用词词表W及对应的词频、预训练的汉语词嵌入模型Chinese-Word-Embedding、公开的义原数据库OpenHownet;
步骤2)假设需要简化的句子为s,利用分词工具对s进行分词和词性标注,获取s={(w1,pos1),(w2,pos2),…,(wi,posi),…,(wn,posn)},wi表示s中第i个词,posi表示wi对应的词性,n表示s中词的数目,定义i的初值为1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011116726.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动升降的配电柜设备
- 下一篇:一种具有置车板限位装置的立体停车库