[发明专利]基于智慧校园信息服务平台的话题发现方法在审
申请号: | 201710216639.7 | 申请日: | 2017-03-25 |
公开(公告)号: | CN106991171A | 公开(公告)日: | 2017-07-28 |
发明(设计)人: | 王凤领 | 申请(专利权)人: | 贺州学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 542899 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于智慧校园信息服务平台的话题发现方法。所述基于智慧校园信息服务平台的话题发现方法针对校园热点话题发现中涉及的新技术,分析了常用的文本聚类算法和文本表示模型,通过利用分词系统将对消息文本进行了分词和关键词的提取,提出消息文本的知识表示模型,通过对构建基于向量空间模型的研究,使用统计消息的词频来确定初始聚类中心并改进优化算法。与相关技术相比,本发明提供的基于智慧校园信息服务平台的话题发现方法可以获得准确的舆情方式和重要元素,从而正确形成舆论。对智慧主题聚类过程可以更快更好地进行处理,并且当报告的消息数量较大时,聚类的精度可以保持较高。 | ||
搜索关键词: | 基于 智慧 校园 信息 服务 平台 话题 发现 方法 | ||
【主权项】:
一种基于智慧校园信息服务平台的话题发现方法,其特征在于,包括:步骤1,建立智能校园信息服务平台,在互联网上校园主题的消息收集形成消息数据库;步骤2,对该数据库中的消息文本进行文本预处理,文本预处理即为分词处理,包括语义歧义分析、未登录词提取、关键字提取和停用词处理;步骤3,对预处理后的文本进行特征提取,其文本特征提取为独立评价方法,所述独立评价方法包括信息增益、X2统计量和文档频率算法,所述信息增益通过需要计算特征项权重大小来对文本类簇进行分类,其是通过下述公式(1)计算获取分类信息多的特征词,IG(t)=-Σi=1nP(ci)logP(ci)+P(t)Σi=1nP(ci|t)logP(ci|t)+P(t‾)Σi=1nP(ci|t‾)logP(ci|t‾)---(1)]]>其中,文本集合表示类别ci的概率是P(ci),并且文本集合表示特征词t的概率是P(t),P(ci|t)包含特征词t文本属于预定义类别ci,是如果特征词t不在文本内则文本属于类别ci的概率,n是文本类别的数量;所述X2统计量是用于评估特征项的重要水平,由特征项携带的文本信息的量通过量化来量化,其通过下述公式(2)来统计量,X2(ti,Cj)=N×(A×D-C×B)2(A+C)×(B+D)×(A+B)×(C+D)---(2)]]>其中,N是提取的文本的数目,Cj是聚类,A是Cj中的文本的数目,并且C不是特征中的文本,B是特征项ti外部的文本的数目Cj簇,并且D是不在特征项ti中的Cj簇外部的文本的数量;所述文档频率算法是通过包括多个文档来计算文档的数量以评估特征;步骤4,将提取的特征词指定为知识表示模型;步骤5,针对文本知识表示模型由计算机通过聚类算法来计算对象,用同一主题的文本一起形成一个主题库,该主体库即为热门话题库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贺州学院,未经贺州学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710216639.7/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置