[发明专利]一种基于XLNet的新闻文本地域提取的方法及系统有效

专利信息
申请号: 202011009623.7 申请日: 2020-09-23
公开(公告)号: CN111967267B 公开(公告)日: 2022-06-21
发明(设计)人: 童逸琦;马涛;倪斌;汪姿如;庄福振 申请(专利权)人: 中科(厦门)数据智能研究院
主分类号: G06F40/295 分类号: G06F40/295;G06F40/289;G06F16/951;G06N3/04;G06N3/08;G06N20/00
代理公司: 厦门致群财富专利代理事务所(普通合伙) 35224 代理人: 刘兆庆
地址: 361000 福建省*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 xlnet 新闻 文本 地域 提取 方法 系统
【说明书】:

发明公开了一种基于XLNet的新闻文本地域提取的方法及系统,其方法包括如下步骤:S1、利用互联网上获取海量未标注生语料,输入XLNet预训练模型中进行预训练;S2、将预处理后的数据输入到步骤S1预训练好的XLNet预训练模型中进行编码,将编码后的隐状态输入到BiLSTM+CRF模型中进行识别,输出识别后的地域实体;S3、地域实体消歧;S4、地域实体汇总;S5、地域主体补全操作;其系统包括地域实体识别模块、实体拼接模块、地域消歧义模块和地域汇总模块,地域实体识别模块由XLNet预训练模型和BiLSTM+CRF模型组成。本发明的二阶段训练过程克服了现有技术存在的预训练阶段和训练阶段存在使用模式不一致的问题,解决了传统的自回归模型无法同时学习上下文信息的痛点,实现了完整建模。

技术领域

本发明涉及计算机技术领域,特别涉及一种基于XLNet的新闻文本地域提取的方法及系统。

背景技术

新闻文本的地域属性蕴含了新闻事件发生的地点,是对新闻事件进行统计、分析的重要参考维度,因此利用计算机实现对新闻文本地域的自动抽取,对下游任务如推荐系统、舆情分析、文本摘要等具有非常重要的推动作用。目前主流的地域提取方法包括机器学习方法和深度学习方法,这两种方法都需要人工标注的地域实体数据集进行训练。

BERT+BiLSTM+CRF模型就是(双向转换的编码预训练模型+双向长短期记忆网络+条件随机场模型)深度学习方法中的一种,但BERT模型存在如下缺点:1、预训练阶段采用引入遮掩标记来遮掩15%的词,但在训练阶段不含有这些被加入遮掩标记的词,导致预训练阶段和训练阶段存在使用模式不一致的情况;2、在预训练阶段,随机遮掩的15%词之间是条件独立的,不存在关联,但自然语言的词之间有些是存在关联的,导致模型的性能损失,无法同时学习上下文信息;3、只能对固定长度的文本序列进行建模,而新闻文本通常是长文本序列,导致无法对其进行完整建模。

发明内容

为解决上述问题,本发明提供了一种基于XLNet的新闻文本地域提取的方法及系统。

本发明采用以下技术方案:

一种基于XLNet的新闻文本地域提取的方法,包括如下步骤:

S1、预训练:利用爬虫技术从互联网上获取海量未标注生语料,对所述未标注生语料进行去噪声和预处理操作后,输入XLNet预训练模型中进行预训练;

S2、训练:a、在BIOES标注框架下,人工标注形成带标签的中文新闻文本地域语料库用作模型训练语料,b、对所述模型训练语料进行通用的数据预处理流程,c、将预处理后的数据输入到所述步骤S1预训练好的XLNet预训练模型中进行编码,d、将编码后的隐状态输入到BiLSTM+CRF模型中进行识别,输出层输出识别后的地域实体;

S3、地域实体消歧:构建省/市二级同一地名知识库,将所述地域实体与所述知识库进行匹配映射,进行消歧;

S4、地域实体汇总:a、统计所述地域实体的长度、在文本中出现的次数以及位置,并将这三个统计信息通过非线性变换分别转换成人工特征,b、采用成对比较法,利用所述人工特征构建特征矩阵,c、计算所述特征矩阵的主特征向量,所述主特征向量上每一维的值对应着所述地域实体的主地域权重,d、对所述主地域权重进行归一化指数函数操作,并按照所述主地域权重大小降序排序,仅保留前3个权重最大的地域实体;

S5、补全:利用爬虫技术爬取中国的行政区划信息,构建省/市/县(区)三级的中国地域知识库,对所述步骤S4所得的前3个权重最大的地域实体进行补全操作,所述补全操作采用最大匹配算法。

进一步地,步骤S2中的所述人工标注的方法为:B代表地域的开始,I代表地域的中间,E代表地域的结尾,S代表单个字符,O代表无关字符。

进一步地,所述步骤S2还包括:e、地域拼接:利用所述地域实体在文本中的位置,采用地域拼接算法对地域主体信息进行拼接。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科(厦门)数据智能研究院,未经中科(厦门)数据智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011009623.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top