[发明专利]一种新闻标题自动生成方法有效
申请号: | 202010073302.7 | 申请日: | 2020-01-22 |
公开(公告)号: | CN111241816B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 罗成;蒋宗礼 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F16/951;G06N3/0442;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻标题 自动 生成 方法 | ||
1.一种新闻标题自动生成方法,其特征在于,包括以下步骤:
(1):获取新闻文本数据,对新闻文本数据处理并划分数据集;
(2):对新闻文本数据进行预处理,生成词向量词典;
(3):构建编-解码网络,其中编码器网络使用双向GRU递归神经网络对预处理后的新闻文本数据进行编码;解码网络利用GRU网络加注意力机制对编码进行解码;
(4):利用融合方法对编-解码网络进行训练,把待分析新闻数据输入训练完成的编-解码网络,根据词汇表和此时的单词概率分布生成新闻标题。
2.根据权利要求1所述的一种新闻标题自动生成方法,其特征在于,所述步骤(1)包括:
(1.1):从新闻网站上爬取新闻数据;
(1.2):只保留新闻文本数据;
(1.3):选取新闻文本数据第一段和第二段作为article,如果内容超过预选取的长度S,则进行截断处理,如果长度不够S,那么就进行0填充;
(1.4):选取新闻网页标签中的摘要部分作为title,如果该新闻文网页标签中没有摘要,则将从该新闻文本数据的article中抽取第一条作为title;
(1.5):对新闻数据进行划分数据集操作,按照9:1的比例分别对title和article对应划分为训练集和测试集。
3.根据权利要求1所述的一种新闻标题自动生成方法,其特征在于,所述步骤(2)进一步包括:
对数据集使用分词工具进行分词,去除停用词,使用word2vec工具对数据进行词向量化生成词表。
4.根据权利要求1所述的一种新闻标题自动生成方法,其特征在于,所述步骤(3)使用双向GRU递归神经网络对预处理后的新闻文本数据进行编码:
(3.1)编码器模型如下所示:
rt=σ(wr[ht-1,xt]+br) (1)
zt=σ(wz[ht-1,xt]+bz) (2)
其中zt表示更新门、rt表示重置门、ht表示输出门、表示候选状态,ht-1表示前一时间步t-1的隐藏状态,xt表示经过步骤2处理后的文本数据,σ表示激活函数sigmoid,tanh表示激活函数,表示权重参数矩阵,表示偏差系数。
(3.2)编码器采用双向结构编码,句子经过步骤2转换成词向量的形式输入编码器,由前向后的GRU网络顺序读句子中的每一个词,得到前向隐藏状态序列从后向前的GRU网络倒序读句中的每一个词,得后向隐藏状态序列把前向网络和后向网络各自的最后一个隐藏状态连接,作为编码器最终编码输出表示S,把编码器得到的编码表示S传递给解码器进行解码,其中S表示如下:
其中n表示句子长度,表示向前序列最后的一个隐藏状态,表示后向序列最后的一个隐藏状态,表示连接操作。
(3.3)将前向和后向结构的隐藏状态向量相连接,连接得到的向量作为双向编码器的隐藏状态序列H=(h1,h2,···hn),双向编码器隐藏状态序列(h1,h2,···hn)在解码器中计算上下文向量ct的时候使用,具体计算如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010073302.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金属薄管抗皱弯曲加工装置
- 下一篇:中压辊压机瓦块式辊皮结构