[发明专利]一种基于XLNet的新闻文本地域提取的方法及系统有效
申请号: | 202011009623.7 | 申请日: | 2020-09-23 |
公开(公告)号: | CN111967267B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 童逸琦;马涛;倪斌;汪姿如;庄福振 | 申请(专利权)人: | 中科(厦门)数据智能研究院 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06F16/951;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 厦门致群财富专利代理事务所(普通合伙) 35224 | 代理人: | 刘兆庆 |
地址: | 361000 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 xlnet 新闻 文本 地域 提取 方法 系统 | ||
1.一种基于XLNet的新闻文本地域提取的方法,其特征在于:包括如下步骤:
S1、预训练:利用爬虫技术从互联网上获取未标注生语料,对所述未标注生语料进行去噪声和预处理操作后,输入XLNet预训练模型中进行预训练;
所述XLNet预训练模型中包含了排列语言模型,所述排列语言模型将文本句子的单词随机打乱顺序,设长度为T的文本序列[1,2,...,T]的所有排列组合集合为ZT,设zt为文本序列中的第t个元素,z<t表示所有排列组合集合ZT的其中一种排列组合情况的前t-1个元素,则排列语言模型对文本序列的建模过程表示成:
其中,θ为待训练的模型参数;
S2、训练:a、在BIOES标注框架下,人工标注形成带标签的中文新闻文本地域语料库用作模型训练语料,b、对所述模型训练语料进行通用的数据预处理流程,c、将预处理后的数据输入到所述步骤S1预训练好的XLNet预训练模型中进行编码,d、将编码后的隐状态输入到BiLSTM+CRF模型中进行识别,输出层输出识别后的地域实体;
S3、地域实体消歧:构建省/市二级同一地名知识库,将所述地域实体与所述知识库进行匹配映射,进行消歧;
S4、地域实体汇总:a、统计所述地域实体的长度、在文本中出现的次数以及位置,并将这三个统计信息通过非线性变换分别转换成人工特征,b、采用成对比较法,利用所述人工特征构建特征矩阵,c、计算所述特征矩阵的主特征向量,所述主特征向量上每一维的值对应着所述地域实体的主地域权重,d、对所述主地域权重进行归一化指数函数操作,并按照所述主地域权重大小降序排序,仅保留前3个权重最大的地域实体;
S5、补全:利用爬虫技术爬取中国的行政区划信息,构建省/市/县或区三级的中国地域知识库,对所述步骤S4所得的前3个权重最大的地域实体进行补全操作,所述补全操作采用最大匹配算法。
2.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:步骤S2中的所述人工标注的方法为:B代表地域的开始,I代表地域的中间,E代表地域的结尾,S代表单个字符,O代表无关字符。
3.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:所述步骤S2还包括:e、地域拼接:利用所述地域实体在文本中的位置,采用地域拼接算法对地域主体信息进行拼接。
4.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:所述XLNet预训练模型采用了双流注意力机制。
5.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:所述BiLSTM+CRF模型采用随机梯度下降算法迭代优化模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科(厦门)数据智能研究院,未经中科(厦门)数据智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011009623.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:层间检测装置及其使用方法
- 下一篇:一种摩擦式控制棒驱动机构及方法