[发明专利]一种Web网页表格标题生成方法在审
申请号: | 202010584765.X | 申请日: | 2020-06-23 |
公开(公告)号: | CN111737984A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 张余平 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06N3/04;G06N3/08;G06F16/951;G06F17/18 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 陈艺文 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 web 网页 表格 标题 生成 方法 | ||
1.一种Web网页表格标题生成方法,其特征在于,包括以下步骤:
步骤1:本文选择:包括:页面标题、节标题、表标题、生成标题、列标题、前缀文本、后缀文本和表格行内容;
步骤2:数据采集:利用网页爬虫技术进行数据采集,通过对每张表的相关内容进行处理,以人工的方式为每个表格生成标题,以<表格文本,生成的标题>格式来构建模型训练所需的训练集、验证集和测试集数据;
步骤3:模型选择:选择基于注意力机制序列到序列机制的指针生成器网络模型,利用注意力机制的解码器-编码器上的工作体将这些数据元结构化字段建模为一个序列,将序列数据输入到模型中,进行训练;
步骤4:利用训练集数据训练模型:将这些字段令牌进行处理后输入到编码器中,Encoder端是一个双向的LSTM,这个双向的LSTM可以捕获原文本的长距离依赖关系以及位置信息,将输入的第i个字段令牌yi作为编码器第i步的输入,其双向LSTM再第i步产生两个相反的隐藏层状态
在每一步中连接正反反向的隐藏层状态得到每一步的编码状态hi;
在解码器端,解码器是一个单向的LSTM,训练阶段时表格数据元依次输入,在时间步t得到解码状态st;使用hi和st得到该时间步原文第i个词注意力权重:
at=softmax(et)
上式中的vT,Wh,Ws和battn是模型需要学习的参数,得到的at是编码器的输入文本上的一个概率分布;由上式可知,其注意力分布由编码器隐藏层状态hi,解码器隐藏层状态st共同决定;每一个词都对应一个概率值可以理解该词所获取的注意力权重,我们将该词对应的隐藏层状态hi与相乘,并且求和,得到上下文向量
可以看成是该时间步通读了原文的固定尺寸的标准,然后将ht和经过两层线性层得到单词表分布Pvocab:
其中V′、V、b、b′都是模型需要学习的参数,Pvocab为预设词表上的概率分布;
在每个解码步骤中,使用线性层计算标量值Pgen∈(0,1)如下:
Pgen是介于0到1之间的标量,它代表从词汇集中生成一个单词的概率,而不是从源文本进行复制;当要生成的词不在预设词表里,而出现在文章编码器的输入文本里时,该机制会使模型有机会直接从编码器的输入文本中取词,从而部分缓解了OOV问题;其中是上下文向量,ht是隐藏的解码器状态,st是解码器输入,和bptr是可学习的参数,σ表示sigmoid函数;标量Pgen用于对词汇分布Pvocab和注意分布pattn进行加权,生成最终分布Pfinal,在词汇表和输入标记的联合中定义每个标记词汇w:
生成单词w的概率等于从词汇集生成w的概率再加上指向原文本任何位置出现该词的概率;当该词不在预设表中,则Pvocab(w)=0,故该词只能从编码器的输入文本中去取值,反之,若该词出现在预设词表中,而不是编码器输入文本内,则则该词只能从词表中去取;
本模型的损失函数是所生成序列的平均负对数似然率:
每进行一定次数训练后就利用验证集来检验当前训练的模型是否已经过拟,如果过拟则停止训练,否则继续训练;
步骤5:利用测试集数据测试模型的准确度:在模型训练过程中会得到多个模型,选择在验证集上损失值最低的模型作为模型训练得到的最优模型,测试集输入到最有模型中,进行解码,解码器每一步解码时,都会得到在扩展词表上的概率分布,利用BeamSearch方式从该分布中采样得到一个词,作为该步所生成的词,这样在解码完成后就会得到连续的多个词,连在一起就是一个完整的句子,即是所要生成的表格标题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010584765.X/1.html,转载请声明来源钻瓜专利网。