[发明专利]一种Web网页表格标题生成方法在审
申请号: | 202010584765.X | 申请日: | 2020-06-23 |
公开(公告)号: | CN111737984A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 张余平 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06N3/04;G06N3/08;G06F16/951;G06F17/18 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 陈艺文 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 web 网页 表格 标题 生成 方法 | ||
本发明公开了一种Web网页表格标题生成方法,通过生成标题而不是选择现有文本字符串或对现有文本字符串进行排名生成标题,即使在源文本中不存在时也能够构成高质量的标题字符串;通过复制机制和生成机制的序列到序列神经网络模型的高质量表标题生成框架,为这些半结构数据生成高质量的标题。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种Web网页表格标题生成方法。
背景技术
现代搜索引擎不再简单地返回相关链接网页,而是根据用户的搜索信息返回以半结构化的方式显示的窗体,如表或列表;但这些半结构数据并没有明确的标识概括其内容,不利于用户查看,所以给这些半结构化数据设置一个标题是十分重要的,但是由于这些返回的数据都不是固定的,并不能通过人为设置标题。
现有生成表格标题方法的缺陷在于对于网页中文本标签的依赖性过强,不能实现灵活地生成概括性强且语义自然的表格标题,主要以以下两种方式为主:一种常见的方法是直接通过选择页面中最具有概括性的文本片段作为标题,但此方法要求一个高质量的标题出现在网页上的某个地方且当现有文本片段与某个表相关时,它们通常只包含该表的理想标题的一部分,不能有效概括表格整体内容;另一种方法是通过挖掘之前用户在浏览器中搜索该表内容的查询日志,将查询日志中用户查询内容做为候选标题,但该方法的成功取决于高质量的标题,且该标题取决于存在先验条件可供选择。对于很少查询的表,成功的可能性不大。此外,对于其中具有多个表的网页,将导致查询该页面中其他相关的表变得更加困难。
发明内容
本发明的目的就在于为了解决上述问题而提供一种Web网页表格标题生成方法,本发明的技术本质在于提出一种具有复制机制和生成机制的序列到序列神经网络模型,通过生成标题而不是选择现有文本字符串或对现有文本字符串进行排名生成标题,即使在源文本中不存在时也能够构成高质量的标题字符串;通过复制机制和生成机制的序列到序列神经网络模型的高质量表标题生成框架,为这些半结构数据生成高质量的标题。
本发明通过以下技术方案来实现上述目的:
一种Web网页表格标题生成方法,包括以下步骤:
步骤1:本文选择:包括:页面标题、节标题、表标题、生成标题、列标题、前缀文本、后缀文本和表格行内容;
步骤2:数据采集:利用网页爬虫技术进行数据采集,通过对每张表的相关内容进行处理,以人工的方式为每个表格生成标题,以表格文本,生成的标题>格式来构建模型训练所需的训练集、验证集和测试集数据;
步骤3:模型选择:选择基于注意力机制序列到序列机制的指针生成器网络模型,利用注意力机制的解码器-编码器上的工作体将这些数据元结构化字段建模为一个序列,将序列数据输入到模型中,进行训练;
步骤4:利用训练集数据训练模型:将这些字段令牌进行处理后输入到编码器中,Encoder端是一个双向的LSTM,这个双向的LSTM可以捕获原文本的长距离依赖关系以及位置信息,将输入的第i个字段令牌yi作为编码器第i步的输入,其双向LSTM再第i步产生两个相反的隐藏层状态
在每一步中连接正反反向的隐藏层状态得到每一步的编码状态hi;
在解码器端,解码器是一个单向的LSTM,训练阶段时表格数据元依次输入,在时间步t得到解码状态st;使用hi和st得到该时间步原文第i个词注意力权重:
at=softmax(et)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010584765.X/2.html,转载请声明来源钻瓜专利网。