[发明专利]一种基于XLNet的新闻文本地域提取的方法及系统有效

专利信息
申请号: 202011009623.7 申请日: 2020-09-23
公开(公告)号: CN111967267B 公开(公告)日: 2022-06-21
发明(设计)人: 童逸琦;马涛;倪斌;汪姿如;庄福振 申请(专利权)人: 中科(厦门)数据智能研究院
主分类号: G06F40/295 分类号: G06F40/295;G06F40/289;G06F16/951;G06N3/04;G06N3/08;G06N20/00
代理公司: 厦门致群财富专利代理事务所(普通合伙) 35224 代理人: 刘兆庆
地址: 361000 福建省*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 xlnet 新闻 文本 地域 提取 方法 系统
【权利要求书】:

1.一种基于XLNet的新闻文本地域提取的方法,其特征在于:包括如下步骤:

S1、预训练:利用爬虫技术从互联网上获取未标注生语料,对所述未标注生语料进行去噪声和预处理操作后,输入XLNet预训练模型中进行预训练;

所述XLNet预训练模型中包含了排列语言模型,所述排列语言模型将文本句子的单词随机打乱顺序,设长度为T的文本序列[1,2,...,T]的所有排列组合集合为ZT,设zt为文本序列中的第t个元素,z<t表示所有排列组合集合ZT的其中一种排列组合情况的前t-1个元素,则排列语言模型对文本序列的建模过程表示成:

其中,θ为待训练的模型参数;

S2、训练:a、在BIOES标注框架下,人工标注形成带标签的中文新闻文本地域语料库用作模型训练语料,b、对所述模型训练语料进行通用的数据预处理流程,c、将预处理后的数据输入到所述步骤S1预训练好的XLNet预训练模型中进行编码,d、将编码后的隐状态输入到BiLSTM+CRF模型中进行识别,输出层输出识别后的地域实体;

S3、地域实体消歧:构建省/市二级同一地名知识库,将所述地域实体与所述知识库进行匹配映射,进行消歧;

S4、地域实体汇总:a、统计所述地域实体的长度、在文本中出现的次数以及位置,并将这三个统计信息通过非线性变换分别转换成人工特征,b、采用成对比较法,利用所述人工特征构建特征矩阵,c、计算所述特征矩阵的主特征向量,所述主特征向量上每一维的值对应着所述地域实体的主地域权重,d、对所述主地域权重进行归一化指数函数操作,并按照所述主地域权重大小降序排序,仅保留前3个权重最大的地域实体;

S5、补全:利用爬虫技术爬取中国的行政区划信息,构建省/市/县或区三级的中国地域知识库,对所述步骤S4所得的前3个权重最大的地域实体进行补全操作,所述补全操作采用最大匹配算法。

2.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:步骤S2中的所述人工标注的方法为:B代表地域的开始,I代表地域的中间,E代表地域的结尾,S代表单个字符,O代表无关字符。

3.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:所述步骤S2还包括:e、地域拼接:利用所述地域实体在文本中的位置,采用地域拼接算法对地域主体信息进行拼接。

4.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:所述XLNet预训练模型采用了双流注意力机制。

5.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:所述BiLSTM+CRF模型采用随机梯度下降算法迭代优化模型的参数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科(厦门)数据智能研究院,未经中科(厦门)数据智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011009623.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top