[发明专利]用于创建可变长度输入的固定长度表示的过程在审
申请号: | 202080027387.3 | 申请日: | 2020-04-07 |
公开(公告)号: | CN114127733A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 亚登·雷森 | 申请(专利权)人: | 贝宝公司 |
主分类号: | G06F40/143 | 分类号: | G06F40/143;G06F40/154;G06F16/958;G06N3/08 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 杨佳婧 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 创建 可变 长度 输入 固定 表示 过程 | ||
一种计算机系统识别从网站的标记语言文档中提取的第一标记语言部分对应于第一可操作元素,其中所述第一标记语言部分是可变长度表示。响应于所述识别出所述第一标记语言部分对应于所述第一可操作元素,所述计算机系统利用递归神经网络(RNN)编码器来创建对应于所述第一标记语言部分的第一代码表示。所述计算机系统识别与一个或多个预定义的目标对应的第一附加信息。所述计算机系统创建最终的固定长度标记语言表示,其包含所述第一代码表示和所述第一附加信息。所述计算机系统将所述最终的固定长度标记语言表示输入到模型中。
技术领域
本公开涉及自动编码器,更具体地涉及训练并利用自动编码器来创建可变长度输入的固定长度表示。
背景技术
Web代表着许多公司在进行风险评估、营销以及其他商业目的而开发有意义的见解时所采用的大量数据源。在许多情况下,公司依赖机器学习算法从已收集的数据中提取这些有意义的见解。然而,机器学习算法通常需要以结构化方式输入数据,因此,利用从Web获得的数据作为机器学习算法的输入可能是成问题的,因为网站的内容表示为HTML,这是基于文本的语法,因为是非结构化的且长度可变而评价不好。创建一种解决方案便利且容易地实现利用Web数据作为机器学习算法的输入将会是有益的。
附图说明
图1图示根据一个实施例的自动编码器系统。
图2和图3是图示根据一个实施例的,图1的转换程序在训练图1的自动编码器时的操作的流程图。
图4是图示根据一个实施例的用于训练图1的自动编码器的过程的流程图。
图5是图示根据一个实施例的用于训练图1的自动编码器的过程的多次特定迭代的描述。
图6是图示根据一个实施例的,图1的转换程序在利用训练之后的图1的自动编码器中根据可变长度标记语言片段创建固定长度表示的操作的流程图。
图7是图示根据一个实施例的,图1的根据可变长度标记语言片段创建固定长度表示以输入到模型的过程的流程图。
图8是说明根据一个实施例的图1的自动编码器的硬件部件的框图。
具体实施方式
本公开的实施例提供一种系统、方法和程序产品。一种计算机系统识别从网站的标记语言文档中提取的第一标记语言部分对应于第一可操作元素,其中所述第一标记语言部分是可变长度表示。响应于所述识别出所述第一标记语言部分对应于所述第一可操作元素,所述计算机系统利用递归神经网络(RNN)编码器来创建对应于所述第一标记语言部分的第一代码表示。所述计算机系统识别与一个或多个预定义的目标对应的第一附加信息。所述计算机系统创建最终的固定长度标记语言表示,其包含所述第一代码表示和所述第一附加信息。所述计算机系统将所述最终的固定长度标记语言表示输入到模型中。
再者,响应于识别出第一标记语言部分对应于第一可操作元素,计算机系统创建对应于所述第一标记语言部分的第一嵌入式令牌序列。响应于创建所述第一嵌入式令牌序列,所述计算机系统利用递归神经网络(RNN)编码器创建与所述第一嵌入式令牌序列对应的第一代码表示。所述计算机系统将第一代码表示输入到RNN解码器中并接收第一输出。所述计算机系统通过将RNN解码器输出的概率向量(或相应的输出令牌序列)与所述第一嵌入式令牌序列比较来确定损耗值。基于所确定的损耗值,所述计算机系统调整与所述RNN编码器相关联的一个或多个权重值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝宝公司,未经贝宝公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080027387.3/2.html,转载请声明来源钻瓜专利网。