[发明专利]一种大数据背景下在线评论文本最佳主题提取系统和方法有效

专利信息
申请号: 201910933579.X 申请日: 2019-09-29
公开(公告)号: CN110765762B 公开(公告)日: 2023-04-18
发明(设计)人: 杨根福;严康铖 申请(专利权)人: 杭州电子科技大学上虞科学与工程研究院有限公司
主分类号: G06F40/216 分类号: G06F40/216;G06F40/258;G06F40/284;G06F40/247
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱亚冠
地址: 312300 浙江省绍兴市上虞区曹娥*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 背景 在线 评论 文本 最佳 主题 提取 系统 方法
【权利要求书】:

1.一种大数据背景下在线评论文本最佳主题提取方法,其特征在于包括以下步骤:

步骤1:文本数据采集模块采集各互联网资源网站中的评论信息,构成在线评论文档集合D={d1,d2,d3,…,dm};其中D是文档总数,dm为第m个文档;

步骤2:文本数据抽取模块加载在线文档集合D,判断文件格式,根据其从文档中抽取的文本内容,生成在线评论集R={r1,r2,r3,…,rn},并输出到文本规范化处理模块和词频统计模块;其中R是评论总数,rn是第n条评论;

步骤3:文本预处理模块对在线评论集R中的在线评论文本进行预处理,包括语言检测、文本清洗、词语切分;经过预处理后得到单词集合W={wr1,wr2,wr3,…3wrn},并输出到词频统计模块和文本规范化模块;其中wrn是第rn条评论中的所有单词;

步骤4:词频统计模块统计W中每个单词出现的次数,发现极高频与极低频词;并将结果输出到文本规范化模块和文本向量化模块;

步骤5:文本规范化模块依据词频统计模块输出的结果从W中删除极高频与极低频词,并执行去停止词处理;接下来并对单词进行词形转换处理,只保留动词、名词、形容词和副词,得到规范化后新的单词集合W’={w’r1,w’r2,w’r3,…3,’rn},并将结果输出到文本向量化模块;

步骤6:根据词频统计模块统计的W中每个单词出现的次数,文本向量化模块从文本规范化模块传送的新单词集合W’中构建单词词典Wdic和单词向量语料库Wcor,作为主题建模的输入;

Wdic=[w1,w2,w3,…wn],其中wn为第n个独立单词;

Wcor={[r1,[(id1,f1),(id2,f2),(id3,f3),(id数的n,fn)]],[r2,[(id1,f1),(id2,f2),(id3,f3),(idr的n,fn)]],[r3,[(id1,f1),(id2,f2),(id3,f3),(idr的n,fn)]],dr的输n,[(id1,f1),(id2,f2),(id3,f3),(idr的n,fn)]]},其中rn为第n条评论,idn为rn中每个单词的编号,fn为单词出现的次数;

步骤7:利用主题提取模块提取最佳主题;

步骤7.1:初始化主题数量Kt

步骤7.2:构建一致性词典CVdic

步骤7.2.1:将Kt、单词词典Wdic和单词向量语料库Wcor作为LDA模型输入参数,通过模型超参数α和β推断主题分布参数θr和主题与单词分布参数φk,θr和符合Dirichlet先验分布,过程如下:

(1)对于每条评论r,随机生成第r条评论的主题分布参数θr~Dir(α);

(2)对于每个主题k,生成主题k的单词分布

(3)对当前评论的每个单词的位置:

根据主题分布参数θr生成当前单词所属主题Zrn,Zrn表示第r条评论第n个单词对应的主题;根据当前位置的主题Zrn,以及主题与单词分布参数生成第r条评论第n个单词对应的单词分布Wkn

迭代执行步骤7.2.1中的(1)-(3),直到遍历所有评论的所有单词,待估计参数θr和进入平稳,由Zrn和Wkn得到主题序列Z={Z1,Z2,……Zt},其中每一个主题Z包含一组单词;

步骤7.2.2:计算每个主题的一致性值coherence;主题一致性值coherence通过测量主题中得分高的单词之间的语义相似程度来衡量主题的得分,计算公式如下:

其中Zi是一组词描述的主题,1≤i≤t,ε是平滑因子,coherence是一致性;Score是Zi中单词对ωij同时出现的概率值,基于评论计算两个单词共现的得分,公式如下;

其中,R(x,y)表示包含单词x和y的评论数,R(x)表示包含x的评论数;平滑因子ε用于评估一致性值达到稳定值;

步骤7.2.3:计算当前Kt时所有主题一致性值coherence的平均值CVt,并将Kt和CVt加入一致性词典CVdic={(Kt1,CV2),(Kt2,CV4),(Kt3,CV6),…,(Kmax,CVmax)};

步骤7.2.4:判断主题数量Kt是否大于Kmax,若是则迭代结束,进入步骤7.3;反之令Kt=Kt+Ki,Ki表示递增量,进入步骤7.2.1;

步骤7.3:从一致性词典CVdic中筛选出一致性CVt最大时的主题数Kb,并将单词词典Wdic、语料库Wcor输入模型,输出Kb时的主题序列Z={Z1,Zr,……Zb},同时统计主题-评论分布,得到每个主题的代表性评论及评论集合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学上虞科学与工程研究院有限公司,未经杭州电子科技大学上虞科学与工程研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910933579.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top