[发明专利]一种表征文档概念的平滑方法、系统及应用在审
申请号: | 202111575864.2 | 申请日: | 2021-12-21 |
公开(公告)号: | CN114254652A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 金平艳;石珺;张杰;杨阳朝 | 申请(专利权)人: | 深圳市网联安瑞网络科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/216 |
代理公司: | 广东普润知识产权代理有限公司 44804 | 代理人: | 彭海民 |
地址: | 518000 广东省深圳市福田区华富街道新田社区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表征 文档 概念 平滑 方法 系统 应用 | ||
1.一种表征文档概念的平滑方法,其特征在于,所述表征文档概念的平滑方法包括:
构建当前文档表征模型和语义生成的文档表征模型;
利用构建的所述当前文档表征模型和语义生成的文档表征模型,建立平滑的文档概念表征模型;获取经过平滑处理后的文档的概念值;
利用获取的所述的概念值,抽取前m个概念表征文档。
2.根据权利要求1所述的表征文档概念的平滑方法,其特征在于,所述构建当前文档表征模型具体包括:构建训练语料库,先对训练语料库进行分词、去停用词操作;表征词袋模型;计算式为:
式中,w(c/D)为文档D中概念c的权重,N为训练库总文档数,n(c)为包含概念c的文档数,0.5为归一化平滑系数,p(c/D)为文档D中概念c出现的概率,k1=1.2、b=0.75分别为经验系数,Dl为文档D的长度,avergDl为训练语料库总文档的平均长度。
3.根据权利要求1所述的表征文档概念的平滑方法,其特征在于,所述构建语义生成的文档表征模型包括:
式中,R(c1,c2)为概念c1与c2的相关度,n(c1,c2)为两概念共现的文档数,n(c1)为包含概念c1的文档数,n(c2)为包含概念c2的文档数。
4.根据权利要求3所述的表征文档概念的平滑方法,其特征在于,根据概念相关度公式R(c1,c2)从大到小取前n个相关度概念值作为关联概念。
5.根据权利要求1所述的表征文档概念的平滑方法,其特征在于,所述获取经过平滑处理后的文档的概念值具体计算公式为:
w(c/D)平滑=μw(c/D)+(1-μ)R(c1,c2)
式中,w(c/D)平滑为经过平滑处理后的文档的概念值,μ为平滑系数,取0.4,w(c/D)、R(c1,c2)分别为词袋模型的权重值和语义生成的文档表征模型的概念关联度值。
6.根据权利要求1所述的表征文档概念的平滑方法,其特征在于,所述抽取前m个概念表征文档包括:根据得到的概念值,取满足条件的概念作为文档的主题概念模型。
7.一种根据权利要求1~6任意一项所述表征文档概念的平滑方法的表征文档概念的平滑系统,其特征在于,所述表征文档概念的平滑系统包括:
词袋模型构建模块,用于构建当前文档表征模型;
语义文档表征模型构建模块,用于构建语义生成的文档表征模型;
平滑文档概念表征模型构建模块,用于利用构建的所述当前文档表征模型和所述语义生成的文档表征模型,建立平滑的文档概念表征模型;获取经过平滑处理后的文档的概念值;
文档表征模块,用于利用得到的所述概念值抽取前m个概念表征文档。
8.一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行如下步骤:构建当前文档表征模型,所述当前文档表征模型为词袋模型;构建语义生成的文档表征模型;
利用构建的所述当前文档表征模型和所述语义生成的文档表征模型,建立平滑的文档概念表征模型;
利用建立的所述平滑的文档概念表征模型,抽取前m个概念表征文档。
9.一种信息数据处理终端,其特征在于,所述信息数据处理终端包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~6任意一项所述表征文档概念的平滑方法。
10.一种互联网计算机设备,其特征在于,所述互联网计算机设备存储有计算机程序,执行权利要求1~6任意一项所述表征文档概念的平滑方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市网联安瑞网络科技有限公司,未经深圳市网联安瑞网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111575864.2/1.html,转载请声明来源钻瓜专利网。