[发明专利]一种句子向量模型训练方法在审
申请号: | 202110766647.5 | 申请日: | 2021-07-07 |
公开(公告)号: | CN113553824A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 姜怀臣;张毅阳;李冬冬 | 申请(专利权)人: | 临沂中科好孕智能技术有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/211;G06F40/284;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 276023 山东省临沂市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 句子 向量 模型 训练 方法 | ||
本发明提供一种句子向量模型训练方法,包括:S1、对多个原始句子进行数据增强处理,得到每个原始句子的多个相似句子,将所有句子复制多份后用于构建多个句子对及其相似性标签;S2、用BERT模型基于所述多个句子对进行预训练,得到第一BERT模型,其中,所述预训练包括利用句子对进行掩码语言模型预训练以及利用句子对和相似性标签进行的判断两个句子是否相似的预训练;S3、利用相应领域的任务对应的分类数据集对第一BERT模型进行微调,得到句子向量模型,该模型具有较好的泛化能力。基于句子向量模型采用的文本检索方法,提高文本检索效率。
技术领域
本发明涉及自然语言处理领域,具体涉及一种句子向量模型训练方法。
背景技术
在60年代,文本检索技术的一些关键技术获取了突破。其间出现了一些优秀的系统以及评价指标。在评价指标方面,由克兰菲尔德(Cranfield)的研究组组织的克兰菲尔德(Cranfield)评测提出了许多目前仍然被广泛采用的评价指标,而在系统方面,杰拉德·索尔顿(Gernard Salton)开发的智能信息检索系统(SMART information retrievalsystem)构建了一个很好的研究平台,在此平台上,研究者可以定义自己的文档相关性测度,以改进检索性能。这样,作为一个研究课题,文本检索技术拥有了较为完善实验平台与评价指标,其研究理所当然地步入了快车道。也正因为如此,在70年代到80年代,许多为文本检索的理论与模型被提出,并且被证明对当时所能获得的数据集是有效的。其中最为著名的是杰拉德·索尔顿(Gerard Salton)提出的向量空间模型。至今该模型还是信息检索领域最为常用的模型之一。但是,检索的对象——文本集合的缺乏使得这些技术在海量文本上的可靠性无法得到验证。当时的研究大多针对数千篇的文档组成的集合。这时,美国国家标准技术研究所(NIST)组织的文本检索会议(Text Retrieval Conference,TREC)的召开改变了这一情况。文本检索会议是一个评测性质的会议,为参评者提供了大规模的文本语料,从而大大推动了信息检索技术的快速发展。会议的第一次召开是1992年,不久后,互联网兴起为信息检索技术提供了一个巨大的实验场。从雅虎(Yahoo)到谷歌(Google),大量实用的文本信息检索系统开始出现并得到广泛应用。这些系统从事实上改变了人类获取信息与知识的方式。
随着2018年底BERT的面世,文本检索领域进入了预训练模型的时代。各大预训练模型如GPT-2,Roberta,XLNet,Transformer-XL,AlBert,T5等等层数不穷。但是几乎大部分模型均不适合语义相似度搜索,也不适合非监督任务,比如聚类。而解决聚类和语义搜索的一种常见方法是将每个句子映射到一个向量空间,使得语义相似的句子很接近。但是直接将整个句子输入预训练模型中,得到该句的句向量,然后作为句子的句向量表示,这样得到的句向量不具有语义信息,也就是说,两个相似的句子,得到的句向量可能会有很大的差别。此外,不仅句向量表示的语义方面存在很大差别,而且,它要求两个句子都被输入到网络中,从而导致巨大开销:从10000个句子集合中找到最相似的句子对需要进行大约5000万个推理计算(约65小时)。
经典BERT在中文数据上将单字作为一个字符进行训练和推断,这种方式仅适合英文单个单词的嵌入,但是中文文本是不适用的,中文文本中的每个领域有属于其自定义的词汇,将BERT改造为基于领域词典进行分词的方式显然更符合中文的语义背景。另外,原本的BERT包括两个预训练任务,即掩码语言模型(Masked Language model)训练和下一句预测(Next Sentence Prediction),在原本的BERT模型中进行掩码语言模型(MaskedLanguage model)训练时,随机选择句子中15%的词汇用于预测,即从一开始随机选择了这15%的词,之后的N个轮次(Epoch)训练中,数据都不再改变,这样便使训练数据单一化,因此,需要收集大量训练数据以弥补训练数据不足的问题,同时,预训练出的模型缺乏一定的泛化能力。原本的BERT模型中的另一预训练任务为下一句预测,用于捕捉句子之间是否连续的关系,这一预训练仅适用使模型较为准确地理解语句及篇章层面的语义信息。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于临沂中科好孕智能技术有限公司,未经临沂中科好孕智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110766647.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多取代异苯并呋喃化合物及其用途
- 下一篇:感应式具有防夹手结构的铝合金门窗