[发明专利]一种大数据背景下在线评论文本最佳主题提取系统和方法有效

申请号：	201910933579.X	申请日：	2019-09-29
公开（公告）号：	CN110765762B	公开（公告）日：	2023-04-18
发明（设计）人：	杨根福;严康铖	申请（专利权）人：	杭州电子科技大学上虞科学与工程研究院有限公司
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/258;G06F40/284;G06F40/247
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱亚冠
地址：	312300 浙江省绍兴市上虞区曹娥***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据背景在线评论文本最佳主题提取系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种大数据背景下在线评论文本最佳主题提取方法，其特征在于包括以下步骤：

步骤1：文本数据采集模块采集各互联网资源网站中的评论信息，构成在线评论文档集合D＝{d₁,d₂,d₃,…,d_m}；其中D是文档总数，d_m为第m个文档；

步骤2：文本数据抽取模块加载在线文档集合D，判断文件格式，根据其从文档中抽取的文本内容，生成在线评论集R＝{r₁,r₂,r₃,…,r_n}，并输出到文本规范化处理模块和词频统计模块；其中R是评论总数，r_n是第n条评论；

步骤3：文本预处理模块对在线评论集R中的在线评论文本进行预处理，包括语言检测、文本清洗、词语切分；经过预处理后得到单词集合W＝{w_r1,w_r2,w_r3,…3w_rn}，并输出到词频统计模块和文本规范化模块；其中w_rn是第r_n条评论中的所有单词；

步骤4：词频统计模块统计W中每个单词出现的次数，发现极高频与极低频词；并将结果输出到文本规范化模块和文本向量化模块；

步骤5：文本规范化模块依据词频统计模块输出的结果从W中删除极高频与极低频词，并执行去停止词处理；接下来并对单词进行词形转换处理，只保留动词、名词、形容词和副词，得到规范化后新的单词集合W’＝{w’_r1,w’_r2,w’_r3,…3,’_rn}，并将结果输出到文本向量化模块；

步骤6：根据词频统计模块统计的W中每个单词出现的次数，文本向量化模块从文本规范化模块传送的新单词集合W’中构建单词词典W_dic和单词向量语料库W_cor，作为主题建模的输入；

W_dic＝[w₁,w₂,w₃,…w_n],其中w_n为第n个独立单词；

W_cor＝{[r₁,[(id₁,f₁),(id₂,f₂),(id₃,f₃),(id数的_n,f_n)]],[r₂,[(id₁,f₁),(id₂,f₂),(id₃,f₃),(idr的_n,f_n)]],[r₃,[(id₁,f₁),(id₂,f₂),(id₃,f₃),(idr的_n,f_n)]],dr的输_n,[(id₁,f₁),(id₂,f₂),(id₃,f₃),(idr的_n,f_n)]]},其中r_n为第n条评论，id_n为r_n中每个单词的编号，f_n为单词出现的次数；

步骤7：利用主题提取模块提取最佳主题；

步骤7.1:初始化主题数量K_t；

步骤7.2:构建一致性词典CV_dic

步骤7.2.1:将K_t、单词词典W_dic和单词向量语料库W_cor作为LDA模型输入参数，通过模型超参数α和β推断主题分布参数θ_r和主题与单词分布参数φ_k，θ_r和符合Dirichlet先验分布，过程如下：

(1)对于每条评论r，随机生成第r条评论的主题分布参数θ_r～Dir(α)；

(2)对于每个主题k，生成主题k的单词分布

(3)对当前评论的每个单词的位置：

根据主题分布参数θ_r生成当前单词所属主题Z_rn，Z_rn表示第r条评论第n个单词对应的主题；根据当前位置的主题Z_rn，以及主题与单词分布参数生成第r条评论第n个单词对应的单词分布W_kn；

迭代执行步骤7.2.1中的(1)-(3)，直到遍历所有评论的所有单词，待估计参数θ_r和进入平稳，由Z_rn和W_kn得到主题序列Z＝{Z₁，Z₂，……Z_t},其中每一个主题Z包含一组单词；

步骤7.2.2:计算每个主题的一致性值coherence；主题一致性值coherence通过测量主题中得分高的单词之间的语义相似程度来衡量主题的得分，计算公式如下：

其中Z_i是一组词描述的主题，1≤i≤t,ε是平滑因子，coherence是一致性；Score是Z_i中单词对ω_i,ω_j同时出现的概率值，基于评论计算两个单词共现的得分，公式如下；

其中，R(x，y)表示包含单词x和y的评论数，R(x)表示包含x的评论数；平滑因子ε用于评估一致性值达到稳定值；

步骤7.2.3:计算当前K_t时所有主题一致性值coherence的平均值CV_t，并将K_t和CV_t加入一致性词典CV_dic＝{(K_t1,CV₂)，(K_t2,CV₄)，(K_t3,CV₆)，…，(K_max,CV_max)}；

步骤7.2.4:判断主题数量K_t是否大于K_max，若是则迭代结束，进入步骤7.3；反之令K_t＝K_t+K_i，K_i表示递增量，进入步骤7.2.1；

步骤7.3：从一致性词典CV_dic中筛选出一致性CV_t最大时的主题数K_b，并将单词词典W_dic、语料库W_cor输入模型，输出K_b时的主题序列Z＝{Z₁，Z_r，……Z_b}，同时统计主题-评论分布，得到每个主题的代表性评论及评论集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学上虞科学与工程研究院有限公司，未经杭州电子科技大学上虞科学与工程研究院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910933579.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种大数据背景下在线评论文本最佳主题提取系统和方法有效

专利文献下载