[发明专利]一种专有领域语料模型构建方法、计算机设备及存储介质有效

申请号：	202011589591.2	申请日：	2020-12-29
公开（公告）号：	CN112612892B	公开（公告）日：	2022-11-01
发明（设计）人：	顾嘉晟;岳小龙;高翔;纪达麒;陈运文	申请（专利权）人：	达而观数据（成都）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/216;G06F40/289;G06F40/205
代理公司：	成都九鼎天元知识产权代理有限公司 51214	代理人：	徐静
地址：	610015 四川省成都市***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种专有领域语料模型构建方法计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种专有领域语料模型构建方法、计算机设备及存储介质，该方法包括以下步骤：步骤一、语料收集及预处理：通过数据清洗获取充足的纯净无监督语料；步骤二、词频及逆文本频率指数分析：通过TF‑IDF统计方法识别出纯净无监督语料中的重要程度较高的词语；步骤三、数据增强：对步骤二中提取出的高频词所在的句子进行增强；步骤四、语言模型训练：通过XLNet模型对步骤三中增强后的纯净无监督语料进行建模以生成专有领域语料模型。本发明通过数据增强后的专有语料所生成的专有领域语料模型则可以较为明显地提升分类任务准确率、召回率及F1值。本发明可以使得语言模型预训练的过程大幅缩短，同时大大降低预训练过程中的资源消耗。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种专有领域语料模型构建方法、计算机设备及存储介质。

背景技术

企业日常运营中存在着大量文本处理工作，文档类型十分多样，每类文档都有着相对固定的格式、规范、固定搭配等。企业日常的文本文档处理工作中存在着大量的文本自然语言处理的应用场景，例如文本分词、文档格式类型分类、文本情感分析、关键信息提取、合同文档审核、文档相似度计算等等。

当下在学术界及工业界，多数NLP任务都会通过预训练语言模型的方式，诸如n-gram，Bert，GPT及其变种等。预训练的思想本质是让深度神经网络中的参数不是随机初始化，而是通过语言模型的任务完成预训练，从而通过迁移学习的思想完成下游的NLP任务。

然而在实际特定领域文档处理时，时常面临的问题是，通用语料与训练模型在预训练所使用的语料中并未包含足够的该行业特有名词、特定文档的固定语法搭配等等语言范式，导致在下游例如关键信息提取任务中，无法准确命中完整的关键信息。在例如金融专有领域的文本分类或关键信息抽取任务中，通用语料生成的语言模型往往在语义理解上有一定偏差。

再例如，在文本分词任务中，往往只能通过较为简单的添加关键词词典的方式粗暴地将某一预设的关键词进行截断。

发明内容

为了解决通用语言模型在特定行业领域文档NLP任务中存在的种种不足，本发明提出一种专有领域语料模型构建方法、计算机设备及存储介质，通过使用数据增强的手段，构建专有领域语料模型以提升下游NLP任务的准确度。本发明中生成的专有领域语料模型可以用于多文档类型、多NLP任务，并可以降低下游模型微调时间，从而达到降低服务器资源耗损的目的。

本发明的技术方案如下：

一种专有领域语料模型构建方法，包括以下步骤：

步骤一、语料收集及预处理：通过数据清洗获取充足的纯净无监督语料；

步骤二、词频及逆文本频率指数分析：通过TF-IDF统计方法识别出所述纯净无监督语料中的重要程度较高的词语，利用所述TF-IDF统计方法中的逆向频率指数剔除掉常用词，所剩词中词频较为高的词作为当前文本的高频词，或作为专有领域语料中的高频词；

步骤三、数据增强：对步骤二中提取出的所述高频词所在的句子进行增强，增强方法包括：对所述高频词所在段落进行复制，并将复制出的段落随机插入所述纯净无监督语料的任意位置；

步骤四、语言模型训练：通过XLNet模型对步骤三中增强后的所述纯净无监督语料进行建模以生成专有领域语料模型；当所述专有领域语料模型训练完成，根据所述专有领域语料模型生成的分词模型对语料进行分词，再次迭代训练以提升语言模型。

进一步的，步骤一中，所述数据清洗包括对海量PDF文件中的文字进行解析并提取，解析方式包括：

保持文本内容的连续性，通过段落来进行划分，保证段落中的上下文是连贯的；

文档标题作为单独段落，正文中的段落标题作为单独段落以保证上下句的连贯性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于达而观数据（成都）有限公司，未经达而观数据（成都）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011589591.2/2.html，转载请声明来源钻瓜专利网。

上一篇：文本内容处理方法和电子设备
下一篇：一种生态环保用河道富营养水藻收集装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种专有领域语料模型构建方法、计算机设备及存储介质有效

专利文献下载