[发明专利]一种利用局部嵌入话题建模的文本表示方法有效

专利信息
申请号: 201710332228.4 申请日: 2017-05-12
公开(公告)号: CN107220311B 公开(公告)日: 2020-12-08
发明(设计)人: 罗森林;刘望桐;潘丽敏;毛炎颖;魏超 申请(专利权)人: 北京理工大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 利用 局部 嵌入 话题 建模 文本 表示 方法
【权利要求书】:

1.一种利用局部嵌入话题建模的文本表示方法,所述方法包括以下步骤:

步骤1,根据文本在词空间的欧氏距离选取近邻集;

步骤2,利用近邻集构造局部加权正则项;

步骤2.1,采用径向基核函数(RBF)为不同近邻分配加权系数计算公式如下:

其中,给定一个文本,词分布用X(i)表示,X(i)的K个近邻表示成S(X(i))={…,S(k),…,S(K)},其中S(k)是第k个较近的近邻且它们有相同的类标签,||X(i)-S(k)||是两个文本之间的平方欧几里得距离,σ是RBF函数的非负的宽度参数,取值范围(0,1],控制了径向作用的范围;

步骤2.2,利用加权系数,通过计算加权均方误差来近似当前文本X(i)的各近邻,正则项表示如下:

在词分布X(i)基础上生成话题分布Y(i),然后对话题分布Y(i)重构词分布得到Z(i),K为词表示X(i)的近邻表示个数,为X(i)和S(k)之间的加权系数;

步骤3,基于正则项,训练文本的话题建模正则化自编码网络;

步骤3.1,利用局部加权正则项,构造样本集的联合损失函数:

其中,nx为输入和输出的大小,K为词表示X(i)的近邻表示个数,为X(i)和S(k)之间的加权系数,W,b,c是随机初始化的模型参数,λ、γ为非负正则超参数,其中项是权重衰减项,用于控制权重W的大小,防止过拟合;

步骤3.2,通过随机梯度下降算法更新训练自编码网络参数W,b和c,使联合损失函数最小;

步骤4,利用自编码网络参数,构造映射函数;

步骤4.1,构造一个观察空间和低维流形空间之间的嵌入映射函数;

步骤4.2,利用编码网络抽取样本外文本的嵌入向量表示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710332228.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top