[发明专利]一种基于HDP模型的文档信息提取方法有效
申请号: | 201911111433.3 | 申请日: | 2019-11-14 |
公开(公告)号: | CN111222319B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 吴晓华;曾叶;罗瑜;孙孟凡;余方剑 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/30 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 陈选中 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hdp 模型 文档 信息 提取 方法 | ||
1.一种基于HDP模型的文档信息提取方法,其特征在于,包括以下步骤:
S1、在HDP模型中引入窗口机制,构建WHDP模型;
S2、获取待提取信息的文本数据,并对其进行预处理;
S3、将预处理后的文本数据输入到WHDP模型中进行处理,提取对应的文档主题分布和主题单词分布作为文本信息提取结果;
所述步骤S1中的WHDP模型包括顶层、文档层和主题词分布更新层;
所述顶层包括G基分布和H基分布,所述G基分布从H基分布中获取文档层的总体主题分布;
所述文档层包括若干个文档,每个文档d中均设置有若干个窗口,若干个所述窗口将每个文档d划分成对应的若干个片段,所述文档层从G基分布中获取每个文档d的文档主题分布θwin,d,并通过依次移动窗口win来更新文档d中每个窗口win中的文档参数;
所述主题词分布更新层用于根据文档层中所有文档的每个窗口中的文档参数,确定文档层中的主题单词在各个文档中的分布概率
所述文档参数包括文档d中第win个窗口中第i个单词的主题和第win个窗口中的第i个单词
其中,win∈[1,W],W为窗口数量;
d∈[1,D],D为文档层中的文档总数;
i∈[1,N],N为窗口win中的单词总数;
所述步骤S3具体为:
S31、初始化预处理后的文本数据中所有单词所属主题的概率分布主题集合K、狄利克雷先验τ和主题集合K中每个主题对应的单词数nk;
S32、判断WHDP模型是否收敛;
若是,则进入步骤S310;
若否,则进入步骤S33;
S33、计算所有文档中窗口win的每个单词关于主题的概率分布μw,win;
其中,概率分布μw,win包括每个文档d已发现主题k的概率和未发现主题K'的概率
S34、根据已计算单词的概率分布μw,win进行主题的随机采样,判断是否出现主题集合K中没有的主题;
若是,则进入步骤S35;
若否,则进入步骤S36;
S35、更新主题集合,使主题集合中的主题总数和该主题对应的单词数增加1,同时更新狄利克雷先验τ,并根据更新后的τ更新概率分布,进入步骤S36;
S36、判断更新后的主题集合中的每个主题是否存在对应的单词;
若是,则进入步骤S38;
若否,则进入步骤S37;
S37、将该主题对应的单词数清零,并进入步骤S39;
S38、将该主题从主题集合中删除,并进入步骤S39;
S39、根据更新后的主题集合或更新后的主题对应单词数nk,计算当前概率分布,并根据概率分布计算文档主题分布θd(k)和主题单词分布并返回步骤S32;
S310、将当前文档主题分布θd(k)和主题单词分布作为文档信息提取结果。
2.根据权利要求1所述的基于HDP模型的文档信息提取方法,其特征在于,在所述WHDP模型中,
所述顶层采用狄利克雷过程中的折棒算法构造G基分布;
所述文档层通过CRF构造算法更新文档d中每个窗口win中的文档参数。
3.根据权利要求1所述的基于HDP模型的文档信息提取方法,其特征在于,所述步骤S2中的对文本数据的预处理包括繁体字简化、去停止词、分词和向量化处理。
4.根据权利要求1所述的基于HDP模型的文档信息提取方法,其特征在于,所述步骤S32中,通过对当前WHDP模型的混淆度进行评估,当WHDP模型的混淆度设定时间内稳定不变时,则WHDP模型收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911111433.3/1.html,转载请声明来源钻瓜专利网。