[发明专利]一种文档建模方法有效

专利信息
申请号: 201710617657.6 申请日: 2017-07-26
公开(公告)号: CN107357927B 公开(公告)日: 2020-06-12
发明(设计)人: 李双印;潘嵘 申请(专利权)人: 深圳爱拼信息科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62;G06F16/38
代理公司: 广州越华专利代理事务所(普通合伙) 44523 代理人: 陈岑
地址: 518057 广东省深圳市南山区南山街道科*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文档 建模 方法
【说明书】:

发明公开了一种文档建模方法,通过设计一种能够同时利用单词和标签信息,以及自动利用标签种类信息,对半结构化文档进行有效的建模。并且利用自主补偿机制,在深度玻尔兹曼机中,学习不同种类的标签信息对文档建模的作用,可以充分考虑不同标签种类的异构信息,从而学习到更加有效的半结构化文档向量。

技术领域

本发明涉及文档处理和建模技术,更具体的,涉及一种文档建模处理方法。

背景技术

所谓半结构化文档,就是指那些含有丰富的标签信息的文档数据,例如拥有类别信息,标题,作者,日期等结构信息的网页文本等。随着互联网的发展,越来越多的半结构化文本数据出现在各种网络应用中。将这种包含标签(Tag)信息的文本数据统称为半结构化文本数据(Semi-StructuredDocuments)。如何有效地对这种半结构化文本数据进行建模成为一个研究热点。传统上,对半结构化文档数据进行建模的有效手段是利用基于贝叶斯概率图模型的主题模型(Topicmodel)。这种建模手段主要建立在词袋模型的假设下,同时对标签数据与文档中的单词信息进行建模,利用标签信息的主题一致性信息,将文本映射到隐含的主题空间。在这个过程中,模型利用标签信息,构建文本的主题分布,利用单词的词袋模型作为输入,从而获得标签的主题分布,文档的主题分布等。利用这种信息,可以进行文本检索,分类,文档聚类,标签推荐等数据挖掘任务。

随着深度学习在文本建模上的广泛使用,利用深度玻尔兹曼机(deep Boltzmannmachine)对文档建模也成为一种有效的手段。深度玻尔兹曼机是一种包含多层受限玻尔兹曼机(restricted Boltzmann machine)的深度神经网络,主要由若干受限玻尔兹曼机构成。而受限玻尔兹曼机(简称RBM)是一种生成式随机神经网络,主要由一个可见层与一个隐含层构成的一种网络映射结构。在进行文档建模时,常规的操作方式是将文档中的单词和标签同时表示为词袋模型,然后输入到深度玻尔兹曼机的可见层,经过多层的受限玻尔兹曼机的映射,最终获得文档向量。

然而,上述现有的技术存在以下缺点:不论基于贝叶斯概率图模型的主题模型,或深度玻尔兹曼机技术,都忽略了标签信息的种类问题。标签的种类信息,在半结构化文档数据中,是天然存在的结构化信息,能够很好的反应文本的主题分布信息。对于半结构化文档数据,标签信息是属于不同种类的。比如一篇文档的标签天然地存在不同的种类,而且不同的种类可以完全异构。例如新闻网页具有一系列作者标签,也具有日期标签,新闻分类标签等等。在对半结构化文档数据进行建模时,需要考虑不同种类的标签对文档建模的影响。不论基于贝叶斯概率图模型的主题模型,或深度玻尔兹曼机,都没有对标签信息的种类进行直接建模。而且,不同种类的标签信息,对文本的向量生成是起到不同的作用的。这就必须提出一套能够自动利用不同种类标签信息的建模方法,以确保在文本建模中充分考虑不同种类的标签信息,从而更加有效的获得半结构化文本向量。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

为此,本发明的目的在于,通过设计一种能够同时利用单词和标签信息,以及自动利用标签种类信息,对半结构化文档进行有效的建模。并且利用自主补偿机制,在深度玻尔兹曼机中,学习不同种类的标签信息对文档建模的作用,可以充分考虑不同标签种类的异构信息,从而学习到更加有效的半结构化文档向量。

为实现上述目的,本发明提供一种文档建模的方法,包括以下步骤:

步骤1,首先将文档中的单词w使用主题模型进行向量映射,得到单词信息的向量,作为

步骤2,将文档中的各类标签信息m1,…,mt,使用标准受限玻尔兹曼机进行向量映射,得到所有标签种类的向量表达并存于

步骤3,使用预设的自主补偿型深度玻尔兹曼机的学习算法构建整个网络;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳爱拼信息科技有限公司,未经深圳爱拼信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710617657.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top