[发明专利]一种基于XLNet的新闻文本地域提取的方法及系统有效

申请号：	202011009623.7	申请日：	2020-09-23
公开（公告）号：	CN111967267B	公开（公告）日：	2022-06-21
发明（设计）人：	童逸琦;马涛;倪斌;汪姿如;庄福振	申请（专利权）人：	中科（厦门）数据智能研究院
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/289;G06F16/951;G06N3/04;G06N3/08;G06N20/00
代理公司：	厦门致群财富专利代理事务所(普通合伙) 35224	代理人：	刘兆庆
地址：	361000 福建省***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 xlnet 新闻文本地域提取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于XLNet的新闻文本地域提取的方法，其特征在于：包括如下步骤：

S1、预训练：利用爬虫技术从互联网上获取未标注生语料，对所述未标注生语料进行去噪声和预处理操作后，输入XLNet预训练模型中进行预训练；

所述XLNet预训练模型中包含了排列语言模型，所述排列语言模型将文本句子的单词随机打乱顺序，设长度为T的文本序列[1,2,...,T]的所有排列组合集合为Z_T，设z_t为文本序列中的第t个元素，z_＜t表示所有排列组合集合Z_T的其中一种排列组合情况的前t-1个元素，则排列语言模型对文本序列的建模过程表示成：

其中，θ为待训练的模型参数；

S2、训练：a、在BIOES标注框架下，人工标注形成带标签的中文新闻文本地域语料库用作模型训练语料，b、对所述模型训练语料进行通用的数据预处理流程，c、将预处理后的数据输入到所述步骤S1预训练好的XLNet预训练模型中进行编码，d、将编码后的隐状态输入到BiLSTM+CRF模型中进行识别，输出层输出识别后的地域实体；

S3、地域实体消歧：构建省/市二级同一地名知识库，将所述地域实体与所述知识库进行匹配映射，进行消歧；

S4、地域实体汇总：a、统计所述地域实体的长度、在文本中出现的次数以及位置，并将这三个统计信息通过非线性变换分别转换成人工特征，b、采用成对比较法，利用所述人工特征构建特征矩阵，c、计算所述特征矩阵的主特征向量，所述主特征向量上每一维的值对应着所述地域实体的主地域权重，d、对所述主地域权重进行归一化指数函数操作，并按照所述主地域权重大小降序排序，仅保留前3个权重最大的地域实体；

S5、补全：利用爬虫技术爬取中国的行政区划信息，构建省/市/县或区三级的中国地域知识库，对所述步骤S4所得的前3个权重最大的地域实体进行补全操作，所述补全操作采用最大匹配算法。

2.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法，其特征在于：步骤S2中的所述人工标注的方法为：B代表地域的开始，I代表地域的中间，E代表地域的结尾，S代表单个字符，O代表无关字符。

3.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法，其特征在于：所述步骤S2还包括：e、地域拼接：利用所述地域实体在文本中的位置，采用地域拼接算法对地域主体信息进行拼接。

4.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法，其特征在于：所述XLNet预训练模型采用了双流注意力机制。

5.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法，其特征在于：所述BiLSTM+CRF模型采用随机梯度下降算法迭代优化模型的参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中科（厦门）数据智能研究院，未经中科（厦门）数据智能研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011009623.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于XLNet的新闻文本地域提取的方法及系统有效

专利文献下载