首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]文档向量化方法、装置、计算设备和计算机可读存储介质在审

申请号：	202111343118.0	申请日：	2021-11-12
公开（公告）号：	CN114201604A	公开（公告）日：	2022-03-18
发明（设计）人：	郭顺;陈成才	申请（专利权）人：	上海智臻智能网络科技股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	连小敏;骆苏华
地址：	201803 上海市嘉***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文档量化方法装置计算设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文档向量化方法，其特征在于，所述方法包括：

将目标文档转化为所述目标文档的向量；

将所述目标文档的向量输入神经主题模型中，得到所述目标文档的主题向量；

其中，所述神经主题模型包括：

分类层，所述分类层是基于样本文档及所述样本文档的分类结果训练得到的，并且在训练后得到第一参数集；

主题向量生成层，所述主题向量生成层在所述第一参数集的控制下，将所述目标文档的向量转化为目标文档的主题向量。

2.根据权利要求1所述的方法，其特征在于，所述分类层用于根据所述样本文档的主题向量对所述样本文档进行分类，所述分类层包括全连接层和归一化指数函数，所述全连接层用于根据所述样本文档的主题向量对所述样本文档进行分类，所述归一化指数函数用于将所述全连接层得到的分类结果进行归一化。

3.根据权利要求1或2所述的方法，其特征在于，所述神经主题模型还包括概述内容提取层，所述概述内容提取层用于根据所述样本文档的向量得到所述样本文档的概述内容，所述概述内容提取层是基于所述样本文档的向量和所述样本文档的概述内容训练得到的，并且在训练后对所述第一参数集进行更新；

所述主题向量生成层在更新后的第一参数集的控制下，将所述目标文档的向量转化为目标文档的主题向量。

4.根据权利要求3所述的方法，其特征在于，所述主题向量生成层还用于输出主题向量矩阵，所述主题向量矩阵是基于样本文档训练得到的、包含若干个主题对应的主题向量的矩阵；

通过所述概述内容提取层，根据所述样本文档的向量和所述主题向量矩阵，得到所述样本文档的概述内容。

5.根据权利要求3所述的方法，其特征在于，所述神经主题模型的损失函数根据所述分类层的损失函数、所述概述内容提取层的损失函数、所述主题向量生成层的损失函数中的单个损失函数或者多个损失函数计算得到；

所述分类层的损失函数C_loss表示为：

其中，C_j为真实的文档的类别标签，T_j为所述分类层得到的文档的类别概率，j的取值范围为[0,n]，n为大于等于1的正整数；

所述概述内容提取层的损失函数g_loss表示为

其中，Y_i为真实的概述内容的标签，Y_i的取值为0或1，P_i为所述概述内容提取层预测出的词包含在目标文档中的概率，i的取值范围为[0,k]，k的取值为大于等于1的正整数。

6.根据权利要求1或2所述的方法，其特征在于，所述得到所述目标文档的主题向量之后，所述方法还包括：

计算所述目标文档的主题向量和其他文档的主题向量之间的欧式距离或余弦距离；

根据所述欧式距离或所述余弦距离，计算所述目标文档与所述其他文档之间的相似度。

7.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

构建预设词典，所述预设词典中包括一个或多个单词；

所述将目标文档转化为所述目标文档的向量，包括：

根据所述预设词典中的词在所述目标文档中出现的词频，将所述目标文档转化为所述目标文档的向量。

8.一种文档向量化装置，其特征在于，所述装置包括：

初步向量化模块，用于将目标文档转化为所述目标文档的向量；

主题向量化模块，用于将目标文档的向量输入神经主题模型中，得到所述目标文档的主题向量；

其中，所述神经主题模型包括：

分类层，所述分类层是基于样本文档及所述样本文档的分类结果训练得到的，并且在训练后得到第一参数集；

主题向量生成层，所述主题向量生成层在所述第一参数集的控制下，将所述目标文档的向量转化为目标文档的主题向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司，未经上海智臻智能网络科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111343118.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种适用于燃气轮机的燃烧诊断装置及方法
下一篇：一种电机生产加工用多功能打孔装置

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top