[发明专利]一种Web网页表格标题生成方法在审

申请号：	202010584765.X	申请日：	2020-06-23
公开（公告）号：	CN111737984A	公开（公告）日：	2020-10-02
发明（设计）人：	张余平	申请（专利权）人：	四川长虹电器股份有限公司
主分类号：	G06F40/258	分类号：	G06F40/258;G06N3/04;G06N3/08;G06F16/951;G06F17/18
代理公司：	四川省成都市天策商标专利事务所 51213	代理人：	陈艺文
地址：	621000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 web 网页表格标题生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种Web网页表格标题生成方法，其特征在于，包括以下步骤：

步骤1：本文选择：包括：页面标题、节标题、表标题、生成标题、列标题、前缀文本、后缀文本和表格行内容；

步骤2：数据采集：利用网页爬虫技术进行数据采集，通过对每张表的相关内容进行处理，以人工的方式为每个表格生成标题，以＜表格文本，生成的标题＞格式来构建模型训练所需的训练集、验证集和测试集数据；

步骤3：模型选择：选择基于注意力机制序列到序列机制的指针生成器网络模型，利用注意力机制的解码器-编码器上的工作体将这些数据元结构化字段建模为一个序列，将序列数据输入到模型中，进行训练；

步骤4：利用训练集数据训练模型：将这些字段令牌进行处理后输入到编码器中，Encoder端是一个双向的LSTM，这个双向的LSTM可以捕获原文本的长距离依赖关系以及位置信息，将输入的第i个字段令牌y_i作为编码器第i步的输入，其双向LSTM再第i步产生两个相反的隐藏层状态

在每一步中连接正反反向的隐藏层状态得到每一步的编码状态h_i；

在解码器端，解码器是一个单向的LSTM，训练阶段时表格数据元依次输入，在时间步t得到解码状态s_t；使用h_i和s_t得到该时间步原文第i个词注意力权重：

a^t＝softmax(e^t)

上式中的v^T，W_h，W_s和b_attn是模型需要学习的参数，得到的a^t是编码器的输入文本上的一个概率分布；由上式可知，其注意力分布由编码器隐藏层状态h_i，解码器隐藏层状态s_t共同决定；每一个词都对应一个概率值可以理解该词所获取的注意力权重，我们将该词对应的隐藏层状态h_i与相乘，并且求和，得到上下文向量

可以看成是该时间步通读了原文的固定尺寸的标准，然后将h_t和经过两层线性层得到单词表分布P_vocab：

其中V′、V、b、b′都是模型需要学习的参数，P_vocab为预设词表上的概率分布；

在每个解码步骤中，使用线性层计算标量值P_gen∈(0，1)如下：

P_gen是介于0到1之间的标量，它代表从词汇集中生成一个单词的概率，而不是从源文本进行复制；当要生成的词不在预设词表里，而出现在文章编码器的输入文本里时，该机制会使模型有机会直接从编码器的输入文本中取词，从而部分缓解了OOV问题；其中是上下文向量，h_t是隐藏的解码器状态，s_t是解码器输入，和b_ptr是可学习的参数，σ表示sigmoid函数；标量P_gen用于对词汇分布P_vocab和注意分布p_attn进行加权，生成最终分布P_final，在词汇表和输入标记的联合中定义每个标记词汇w：

生成单词w的概率等于从词汇集生成w的概率再加上指向原文本任何位置出现该词的概率；当该词不在预设表中，则P_vocab(w)＝0，故该词只能从编码器的输入文本中去取值，反之，若该词出现在预设词表中，而不是编码器输入文本内，则则该词只能从词表中去取；

本模型的损失函数是所生成序列的平均负对数似然率：

每进行一定次数训练后就利用验证集来检验当前训练的模型是否已经过拟，如果过拟则停止训练，否则继续训练；

步骤5：利用测试集数据测试模型的准确度：在模型训练过程中会得到多个模型，选择在验证集上损失值最低的模型作为模型训练得到的最优模型，测试集输入到最有模型中，进行解码，解码器每一步解码时，都会得到在扩展词表上的概率分布，利用BeamSearch方式从该分布中采样得到一个词，作为该步所生成的词，这样在解码完成后就会得到连续的多个词，连在一起就是一个完整的句子，即是所要生成的表格标题。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司，未经四川长虹电器股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010584765.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种高硬度阻燃聚氨酯电子灌封胶及其制备方法
下一篇：一种水利水电工程用自动埋线装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种Web网页表格标题生成方法在审

专利文献下载