[发明专利]一种基于口碑的P2P平台风险分析方法有效
申请号: | 202010163040.3 | 申请日: | 2020-03-10 |
公开(公告)号: | CN111428510B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 孙西超;张晓芳 | 申请(专利权)人: | 蚌埠学院 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/279;G06F40/284;G06N3/08;G06Q40/06 |
代理公司: | 合肥维可专利代理事务所(普通合伙) 34135 | 代理人: | 吴明华 |
地址: | 233000 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 口碑 p2p 平台 风险 分析 方法 | ||
1.一种基于口碑数据的P2P平台风险分析方法,其特征在于:包括:
(11)采集目标P2P平台口碑文本数据并进行预处理过程,用矩阵方式表示口碑文本数据的特征属性,记为第二特征属性集;
(12)采用文本主题发现算法,获取每一条口碑文本数据中包含的主题Kn,其中n表示所有口碑文本数据包含的主题总数;
(13)统计涉及主题Kn的口碑文本数据条数mn,并对涉及主题Kn的mn条口碑文本数据进行情感倾向分类;
所述步骤(11)中的预处理过程包括分词过程和特征编码过程,所述分词过程采用Jieba分词方法对口碑文本数据分词,由词语组成的词集表示口碑文本数据,并对词集中的词语进行去噪处理;所述特征编码过程采用词袋模型对数据进行特征化,以包含文本特征信息的向量表示文本数据;
所述步骤(12)中的文本主题发现算法,具体为:
(51)建立数据集,采用基于维基百科词向量的特征扩展方法获取扩展文本数据,并将扩展文本数据经过步骤(11)中的预处理过程,获取第一特征属性集;
(52)搭建主题发现算法模型,其中,
(521)对于口碑文本数据中的每个词语wi,选择一个主题z的公式为:
其中,z∈{1,2,...K};z-i是当前文本中除去词语wi后剩余词语的主题集合;xL是每一条口碑文本数据的第一特征属性集;nl,z是扩展文本数据中主题为z的词语的个数;nz,i是口碑文本数据和扩展文本数据中主题为z的词语wi的个数和;
对于扩展文本数据中的每个词语wi,选择一个主题z的公式为:
其中,xS是每一条口碑文本数据的第二特征属性集,ns,z是口碑文本数据中主题为z的词语的个数,均值μ,协方差为δ2;对于每一个主题k,λk是向量,其维度与文本类型向量xL和xS相同;
(522)在每个词语主题值更新的条件下,采用L-BFGS优化方法优化参数λ,进而优化口碑文本数据和扩展文本数据各自的狄利克雷先验值αL和αS,αL和αS分别为扩展文本数据集和口碑文本数据集的狄利克雷分布的主题先验参数;
(523)当每个口碑文本数据的每个词语的主题值以及狄利克雷先验值αL和αS稳定后,通过如下的公式进行统计和计算,获得模型的两个参数:口碑文本数据和扩展文本数据的主题-词语分布以及口碑文本数据集的主题分布θ,
其中,nk,t为扩展文本数据集和口碑文本数据集中主题为k的词语t的个数;
其中,ns,k口碑文本数据中主题为k的词语的个数,其中口碑文本数据的主题为{θs,1,θs,2,...θs,k}中最大值对应的主题k的值;
(53)训练模型,基于扩展文本数据集和口碑文本数据集,初始化β和δ两个参数,通过高斯函数初始化矩阵λ,设置每次试验的迭代次数,进行模型训练,直至当每个口碑文本数据的每个词语的主题值以及狄利克雷先验值αL和αS稳定后,获得模型的两个参数,口碑文本数据和扩展文本数据的主题-词语分布以及口碑文本数据集的主题分布θ;
(54)将待分析口碑文本数据对应的第二特征属性和第一特征属性输入训练好的模型,获取待分析口碑文本数据的包含的主题。
2.根据权利要求1所述的一种基于口碑数据的P2P平台风险分析方法,其特征在于:所述预处理过程还包括特征选择过程,用于从分词过程后的词集中过滤掉没有实际意义的词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蚌埠学院,未经蚌埠学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010163040.3/1.html,转载请声明来源钻瓜专利网。