[发明专利]多层级主题向量空间的构建方法、装置、设备和存储介质有效
申请号: | 201911242995.1 | 申请日: | 2019-12-06 |
公开(公告)号: | CN110889293B | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 吴欣辉 | 申请(专利权)人: | 浙江大搜车软件技术有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284;G06F16/35 |
代理公司: | 杭州华进联浙知识产权代理有限公司 33250 | 代理人: | 金无量 |
地址: | 310000 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多层 主题 向量 空间 构建 方法 装置 设备 存储 介质 | ||
1.一种多层级主题向量空间的构建方法,其特征在于,包括:
从语料库中提取全局词共现矩阵;
利用SIRM模型对所述全局词共现矩阵进行建模,对预设的噪声构建模型,形成噪声模型,在对所述全局词共现矩阵聚类之时,通过所述噪声模型对所述全局词共现矩阵进行噪声处理,并生成不同层级的主题库,根据不同层级的主题库分别生成不同层级的主题相关矩阵;
对于每一层级的所述主题相关矩阵,构建主题向量空间。
2.根据权利要求1所述的多层级主题向量空间的构建方法,其特征在于,所述从语料库中提取全局词共现矩阵的步骤包括:
通过滑动窗口机制对所述语料库进行遍历,得到n×n的全局词共现矩阵A={Ai,j},其中,n是所述语料库的字典的维度,Ai,j表示了词i与词j的共现频率。
3.根据权利要求1所述的多层级主题向量空间的构建方法,其特征在于,所述生成不同层级的主题库,根据不同层级的主题库分别生成不同层级的主题相关矩阵的步骤包括:
通过聚类生成不同层级的主题库,并通过最大后验准则生成不同层级的主题相关矩阵。
4.根据权利要求3所述的多层级主题向量空间的构建方法,其特征在于,所述通过聚类生成不同层级的主题库,并通过最大后验准则生成不同层级的主题相关矩阵的步骤包括:
对所述全局词共现矩阵进行聚类,生成一层级的主题库,并通过最大后验准则生成一层级的主题相关矩阵;
对所述一层级的主题相关矩阵进行聚类,生成下一层级的主题库,并通过最大后验准则生成下一层级的主题相关矩阵,通过迭代生成不同层级的主题相关矩阵。
5.根据权利要求4所述的多层级主题向量空间的构建方法,其特征在于,所述对于每一层级的所述主题相关矩阵,构建主题向量空间的步骤包括:
对于每一层级的主题相关矩阵,通过Glove算法构建主题向量空间。
6.根据权利要求5所述的多层级主题向量空间的构建方法,其特征在于,所述Glove算法的数学模型如下:
vi为主题i的主题向量,vj为主题j的主题向量,vk为主题k的主题向量,主题向量构成主题向量空间;所述主题k为除了主题i和主题j之外的其他主题,F是主题向量的关系函数,Pik是主题i和主题k的共现概率,Pjk是主题j和主题k的共现概率,所述Pik的数学表示为:
所述Pjk的数学表示为:
其中,Θ为主题相关矩阵;Θik和Θjk分别为所述主题i与所述主题k的主题相关系数以及所述主题j与所述主题k的主题相关系数。
7.一种多层级主题向量空间的构建装置,其特征在于,所述装置包括:
提取模块,用于从语料库中提取全局词共现矩阵;
生成模块,用于利用SIRM模型对全局词共现矩阵进行建模,对预设的噪声构建模型,形成噪声模型,在对所述全局词共现矩阵聚类之时,通过所述噪声模型对所述全局词共现矩阵进行噪声处理,并生成不同层级的主题库,根据不同层级的主题库分别生成不同层级的主题相关矩阵;
构建模块,用于对于每一层级的所述主题相关矩阵,构建主题向量空间。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序
被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大搜车软件技术有限公司,未经浙江大搜车软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911242995.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种接地线盒
- 下一篇:一种被动供给式电喷雾推力器系统