[发明专利]一种大数据背景下在线评论文本最佳主题提取系统和方法有效
申请号: | 201910933579.X | 申请日: | 2019-09-29 |
公开(公告)号: | CN110765762B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 杨根福;严康铖 | 申请(专利权)人: | 杭州电子科技大学上虞科学与工程研究院有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/258;G06F40/284;G06F40/247 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱亚冠 |
地址: | 312300 浙江省绍兴市上虞区曹娥*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 背景 在线 评论 文本 最佳 主题 提取 系统 方法 | ||
1.一种大数据背景下在线评论文本最佳主题提取方法,其特征在于包括以下步骤:
步骤1:文本数据采集模块采集各互联网资源网站中的评论信息,构成在线评论文档集合D={d1,d2,d3,…,dm};其中D是文档总数,dm为第m个文档;
步骤2:文本数据抽取模块加载在线文档集合D,判断文件格式,根据其从文档中抽取的文本内容,生成在线评论集R={r1,r2,r3,…,rn},并输出到文本规范化处理模块和词频统计模块;其中R是评论总数,rn是第n条评论;
步骤3:文本预处理模块对在线评论集R中的在线评论文本进行预处理,包括语言检测、文本清洗、词语切分;经过预处理后得到单词集合W={wr1,wr2,wr3,…3wrn},并输出到词频统计模块和文本规范化模块;其中wrn是第rn条评论中的所有单词;
步骤4:词频统计模块统计W中每个单词出现的次数,发现极高频与极低频词;并将结果输出到文本规范化模块和文本向量化模块;
步骤5:文本规范化模块依据词频统计模块输出的结果从W中删除极高频与极低频词,并执行去停止词处理;接下来并对单词进行词形转换处理,只保留动词、名词、形容词和副词,得到规范化后新的单词集合W’={w’r1,w’r2,w’r3,…3,’rn},并将结果输出到文本向量化模块;
步骤6:根据词频统计模块统计的W中每个单词出现的次数,文本向量化模块从文本规范化模块传送的新单词集合W’中构建单词词典Wdic和单词向量语料库Wcor,作为主题建模的输入;
Wdic=[w1,w2,w3,…wn],其中wn为第n个独立单词;
Wcor={[r1,[(id1,f1),(id2,f2),(id3,f3),(id数的n,fn)]],[r2,[(id1,f1),(id2,f2),(id3,f3),(idr的n,fn)]],[r3,[(id1,f1),(id2,f2),(id3,f3),(idr的n,fn)]],dr的输n,[(id1,f1),(id2,f2),(id3,f3),(idr的n,fn)]]},其中rn为第n条评论,idn为rn中每个单词的编号,fn为单词出现的次数;
步骤7:利用主题提取模块提取最佳主题;
步骤7.1:初始化主题数量Kt;
步骤7.2:构建一致性词典CVdic
步骤7.2.1:将Kt、单词词典Wdic和单词向量语料库Wcor作为LDA模型输入参数,通过模型超参数α和β推断主题分布参数θr和主题与单词分布参数φk,θr和符合Dirichlet先验分布,过程如下:
(1)对于每条评论r,随机生成第r条评论的主题分布参数θr~Dir(α);
(2)对于每个主题k,生成主题k的单词分布
(3)对当前评论的每个单词的位置:
根据主题分布参数θr生成当前单词所属主题Zrn,Zrn表示第r条评论第n个单词对应的主题;根据当前位置的主题Zrn,以及主题与单词分布参数生成第r条评论第n个单词对应的单词分布Wkn;
迭代执行步骤7.2.1中的(1)-(3),直到遍历所有评论的所有单词,待估计参数θr和进入平稳,由Zrn和Wkn得到主题序列Z={Z1,Z2,……Zt},其中每一个主题Z包含一组单词;
步骤7.2.2:计算每个主题的一致性值coherence;主题一致性值coherence通过测量主题中得分高的单词之间的语义相似程度来衡量主题的得分,计算公式如下:
其中Zi是一组词描述的主题,1≤i≤t,ε是平滑因子,coherence是一致性;Score是Zi中单词对ωi,ωj同时出现的概率值,基于评论计算两个单词共现的得分,公式如下;
其中,R(x,y)表示包含单词x和y的评论数,R(x)表示包含x的评论数;平滑因子ε用于评估一致性值达到稳定值;
步骤7.2.3:计算当前Kt时所有主题一致性值coherence的平均值CVt,并将Kt和CVt加入一致性词典CVdic={(Kt1,CV2),(Kt2,CV4),(Kt3,CV6),…,(Kmax,CVmax)};
步骤7.2.4:判断主题数量Kt是否大于Kmax,若是则迭代结束,进入步骤7.3;反之令Kt=Kt+Ki,Ki表示递增量,进入步骤7.2.1;
步骤7.3:从一致性词典CVdic中筛选出一致性CVt最大时的主题数Kb,并将单词词典Wdic、语料库Wcor输入模型,输出Kb时的主题序列Z={Z1,Zr,……Zb},同时统计主题-评论分布,得到每个主题的代表性评论及评论集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学上虞科学与工程研究院有限公司,未经杭州电子科技大学上虞科学与工程研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910933579.X/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置