[发明专利]基于文本聚类的线上课堂讨论短文本即时分组方法及系统有效

申请号：	201711170964.0	申请日：	2017-11-22
公开（公告）号：	CN107862070B	公开（公告）日：	2021-08-10
发明（设计）人：	陆以勤;夏儒斐;黄国洪	申请（专利权）人：	华南理工大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/33;G06F40/284
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	何淑珍
地址：	511458 广东省广州市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于文本线上课堂讨论即时分组方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于文本聚类的线上课堂讨论短文本即时分组方法，其特征在于，包括如下步骤的组合：

S101、获取并存储线上课堂讨论短文本数据；

S102、对文本数据，进行文本分词预处理和停用词预处理；

S103、获取各文本项关键词，存储于关键词表统计表keyTable；

S104、对预处理过后的文本集，进行频繁项集挖掘，过滤各子项的准频繁项集，结合关键词统计表定义准频繁项集相似度计算规则，粗归簇；

所述S104中结合关键词统计表定义准频繁项集相似度计算规则用于粗归簇，具体包括：

关键词统计表中各关键词K_i对语义相似度的贡献值以逆文档频数N_i来度量，i表征关键词编号，取1～n，n为文本数量；通过包含各关键词的文本个数统计，表征该关键词类别区分能力；若N_i＞n/2,将该关键词K_i标记为基础词；否则标记为一般关键词；

在线上课堂讨论短文本中，对于同一个题目，讨论内容基于一些基础词发表不同观点；基础词和关键词运用在准频繁项集相似度计算中主要用于区分相同大前提下的小区别；词集中每个词对应几个概念，每个概念由几个义原来描述；对于两个概念s_1i和s_2i，此处下标i表征各概念中义原编号，Sim(S_1i,S_2i)表示s_1i和s_2i两个概念之间的语义距离：

其中，d_min为s_1i、s_2i两概念第一义原在中文知识库层次体系中的最小距离；α取1.6；定义词语间语义相似度计算公式如下：

准频繁项集间任意两集合t₁和t₂，若t₁和t₂含k个相同的基础词：

其中，w_i，w_j不是相同的基础词，δ取1.5，用于区分相同基础关键词大前提下不同表述内容，否则：

其中，Δ以较小常数0.1定义任一非空值可空值相似度，l和s分别为较长和较短的两个项的长度；

S105、将各组最靠近簇心的点逆映射到文本集，计算各簇内文本词集TF-IDF值，根据TF-IDF提取文本的特征，获取文本特征向量；

S106、计算各特征点到各簇簇心距离，划分到距离最近的簇，迭代更新质心至最优；

S107、获取文本词汇特征向量的K个簇，即时分组推送各簇内容，按支持度降序排列。

2.根据权利要求1所述的一种基于文本聚类的线上课堂讨论短文本即时分组方法，其特征在于，步骤S102及S103中文本分词预处理及关键词挖掘使用汉语词法分词系统ICTCLAS、基于HTTP协议的开源中文分词系统HTTPCWS或简易中文分词系统SCWS；S102中停用词预处理判定条件为：剔除特殊符号、中英文单字、常见噪声字词；停用词处理使用静态停用词表或基于统计学习的停用词表。

3.根据权利要求1所述的一种基于文本聚类的线上课堂讨论短文本即时分组方法，其特征在于，所述S103获取各文本项关键词存储于关键词表统计表keyTable，关键词统计表keytable记录所有关键词逆文档频数统计。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711170964.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种分类数据库的构建方法以及图书分类的方法
下一篇：生成会议记录的方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于文本聚类的线上课堂讨论短文本即时分组方法及系统有效

专利文献下载