[发明专利]一种利用局部嵌入话题建模的文本表示方法有效
申请号: | 201710332228.4 | 申请日: | 2017-05-12 |
公开(公告)号: | CN107220311B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 罗森林;刘望桐;潘丽敏;毛炎颖;魏超 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 局部 嵌入 话题 建模 文本 表示 方法 | ||
1.一种利用局部嵌入话题建模的文本表示方法,所述方法包括以下步骤:
步骤1,根据文本在词空间的欧氏距离选取近邻集;
步骤2,利用近邻集构造局部加权正则项;
步骤2.1,采用径向基核函数(RBF)为不同近邻分配加权系数计算公式如下:
其中,给定一个文本,词分布用X(i)表示,X(i)的K个近邻表示成S(X(i))={…,S(k),…,S(K)},其中S(k)是第k个较近的近邻且它们有相同的类标签,||X(i)-S(k)||是两个文本之间的平方欧几里得距离,σ是RBF函数的非负的宽度参数,取值范围(0,1],控制了径向作用的范围;
步骤2.2,利用加权系数,通过计算加权均方误差来近似当前文本X(i)的各近邻,正则项表示如下:
在词分布X(i)基础上生成话题分布Y(i),然后对话题分布Y(i)重构词分布得到Z(i),K为词表示X(i)的近邻表示个数,为X(i)和S(k)之间的加权系数;
步骤3,基于正则项,训练文本的话题建模正则化自编码网络;
步骤3.1,利用局部加权正则项,构造样本集的联合损失函数:
其中,nx为输入和输出的大小,K为词表示X(i)的近邻表示个数,为X(i)和S(k)之间的加权系数,W,b,c是随机初始化的模型参数,λ、γ为非负正则超参数,其中项是权重衰减项,用于控制权重W的大小,防止过拟合;
步骤3.2,通过随机梯度下降算法更新训练自编码网络参数W,b和c,使联合损失函数最小;
步骤4,利用自编码网络参数,构造映射函数;
步骤4.1,构造一个观察空间和低维流形空间之间的嵌入映射函数;
步骤4.2,利用编码网络抽取样本外文本的嵌入向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710332228.4/1.html,转载请声明来源钻瓜专利网。