[发明专利]一种基于HDP模型的文档信息提取方法有效

专利信息
申请号: 201911111433.3 申请日: 2019-11-14
公开(公告)号: CN111222319B 公开(公告)日: 2021-09-14
发明(设计)人: 吴晓华;曾叶;罗瑜;孙孟凡;余方剑 申请(专利权)人: 电子科技大学
主分类号: G06F40/216 分类号: G06F40/216;G06F40/30
代理公司: 成都正华专利代理事务所(普通合伙) 51229 代理人: 陈选中
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 hdp 模型 文档 信息 提取 方法
【说明书】:

发明公开了一种基于HDP模型的文档信息提取方法,包括步骤:S1、构建引入窗口机制的WHDP模型;S2、获取待提取信息的文本数据,并对其进行预处理;S3、将预处理后的文本数据输入到WHDP模型中进行处理,提取对应的文档主题分布和主题单词分布作为文本信息提取结果。本方法结合吉布斯采用和消息传播算法实现更新主题概率和动态更新主题个数;利用窗口及移动窗口保证了文本单词的顺序性,降低文本语义的混淆,本发明提出的WHDP模型有更好的收敛性、泛化性,既能自动确定海量文本中的文档主题数,又能避免推理过程词文本上下文信息的丢失。

技术领域

本发明属于文本处理技术领域,具体涉及一种基于新型HDP模型的文档信息提取方法。

背景技术

随着网络文本的爆炸式增长,从海量文本提取合理的信息是件非常困难的事。在众多的文本处理方法中,主题模型能够对大规模文档集进行文本聚类,使得人们较快地获取到想要的信息。近二十年来,主题模型得到了快速的发展,并扩展出很多模型。

现有的主题模型中,LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)主题模型虽然在文本聚类中取得了较好的效果,但是需要手动确定最优的主题聚类个数,而在海量文本数据中,文档主题数并不能确定。HDP(分层狄利克雷过程)模型是LDA主题模型无参数的一个扩展,它能够自动确定文档的主题个数,训练前不需要预设文档的主题个数,解决了人工确定文档主题数的问题。但是,LDA模型和HDP模型都是基于“次袋”假设,将文本中的词看作是无序的,统计该次在文本中出现的次数,并将词频的组合看作各个数据集,没有考虑文档中词之间的上下文关系,造成了文本语义上的混淆。

发明内容

针对现有技术中的上述不足,本发明提供的基于HDP模型的文档信息提取方法解决了现有的利用HDP模型提取文本信息时,没有考虑文档中词之间的上下文关系,造成语义上混淆的问题。

为了达到上述发明目的,本发明采用的技术方案为:一种基于HDP模型的文档信息提取方法,其特征在于,包括以下步骤:

S1、在HDP模型中引入窗口机制,构建WHDP模型;

S2、获取待提取信息的文本数据,并对其进行预处理;

S3、将预处理后的文本数据输入到WHDP模型中进行处理,提取对应的文档主题分布和主题单词分布作为文本信息提取结果。

进一步地,所述步骤S1中的WHDP模型包括顶层、文档层和主题词分布更新层;

所述顶层包括G基分布和H基分布,所述G基分布从H基分布中获取文档层的总体主题分布;

所述文档层包括若干个文档,每个文档d中均设置有若干个窗口,若干个所述窗口将每个文档d划分成对应的若干个片段,所述文档层从G基分布中获取每个文档d的文档主题分布θwin,d,并通过依次移动窗口win来更新文档d中每个窗口win中的文档参数;

所述主题词分布更新层用于根据文档层中所有文档的每个窗口中的文档参数,确定文档层中的主题单词在各个文档中的分布概率

所述文档参数包括文档d中第win个窗口中单词i的主题和第win个窗口中的第i个单词

其中,win∈[1,W],W为窗口数量;

d∈[1,D],D为文档层中的文档总数;

i∈[1,N],N为窗口win中的单词总数。

进一步地,在所述WHDP模型中,

所述顶层采用狄利克雷过程中的折棒算法构造G基分布;

所述文档层通过CRF构造算法更新文档d中每个窗口win中的文档参数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911111433.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top