[发明专利]一种利用局部嵌入话题建模的文本表示方法有效

申请号：	201710332228.4	申请日：	2017-05-12
公开（公告）号：	CN107220311B	公开（公告）日：	2020-12-08
发明（设计）人：	罗森林;刘望桐;潘丽敏;毛炎颖;魏超	申请（专利权）人：	北京理工大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35
代理公司：	暂无信息	代理人：	暂无信息
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种利用局部嵌入话题建模文本表示方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种利用局部嵌入话题建模的文本表示方法，所述方法包括以下步骤：

步骤1，根据文本在词空间的欧氏距离选取近邻集；

步骤2，利用近邻集构造局部加权正则项；

步骤2.1，采用径向基核函数(RBF)为不同近邻分配加权系数计算公式如下：

其中，给定一个文本，词分布用X⁽ⁱ⁾表示，X⁽ⁱ⁾的K个近邻表示成S(X⁽ⁱ⁾)＝{…,S^(k),…,S^(K)}，其中S^(k)是第k个较近的近邻且它们有相同的类标签，||X⁽ⁱ⁾-S^(k)||是两个文本之间的平方欧几里得距离，σ是RBF函数的非负的宽度参数，取值范围(0,1]，控制了径向作用的范围；

步骤2.2，利用加权系数，通过计算加权均方误差来近似当前文本X⁽ⁱ⁾的各近邻，正则项表示如下：

在词分布X⁽ⁱ⁾基础上生成话题分布Y⁽ⁱ⁾，然后对话题分布Y⁽ⁱ⁾重构词分布得到Z⁽ⁱ⁾，K为词表示X⁽ⁱ⁾的近邻表示个数，为X⁽ⁱ⁾和S^(k)之间的加权系数；

步骤3，基于正则项，训练文本的话题建模正则化自编码网络；

步骤3.1，利用局部加权正则项，构造样本集的联合损失函数：

其中，n_x为输入和输出的大小，K为词表示X⁽ⁱ⁾的近邻表示个数，为X⁽ⁱ⁾和S^(k)之间的加权系数，W,b,c是随机初始化的模型参数，λ、γ为非负正则超参数，其中项是权重衰减项，用于控制权重W的大小，防止过拟合；

步骤3.2，通过随机梯度下降算法更新训练自编码网络参数W,b和c，使联合损失函数最小；

步骤4，利用自编码网络参数，构造映射函数；

步骤4.1，构造一个观察空间和低维流形空间之间的嵌入映射函数；

步骤4.2，利用编码网络抽取样本外文本的嵌入向量表示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】