[发明专利]基于智慧校园信息服务平台的话题发现方法在审
申请号: | 201710216639.7 | 申请日: | 2017-03-25 |
公开(公告)号: | CN106991171A | 公开(公告)日: | 2017-07-28 |
发明(设计)人: | 王凤领 | 申请(专利权)人: | 贺州学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 542899 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 智慧 校园 信息 服务 平台 话题 发现 方法 | ||
技术领域
本发明涉及一种热门话题发现领域,尤其涉及一种基于智慧校园信息服务平台的话题发现方法。
背景技术
计算机网络的不断发展,越来越丰富了校园生活。网络信息已成为校园生活中的重要组成部分,互联网已经成为学生获取信息、交流沟通的重要场所。
如何有效掌握网络的海量数据,提取其中的热点话题,或者获取自己想要的信息,成为长期困扰网络用户的难题。热点话题发现,可从各种信息资源中发现某段时间内各个领域中引起人们广泛关注的话题,方便学生获取当前重要资讯,快速掌握当前信息。
因此,有必要提供一种于智慧校园信息服务平台的话题发现方法来实现以上技术方案。
发明内容
本发明的目的在于提供一种基于智慧校园信息服务平台的话题发现方法,以满足用户实时发现网络论坛突发性热点话题的需求。
本发明提供一种基于智慧校园信息服务平台的话题发现方法,包括:
步骤1,建立智能校园信息服务平台,在互联网上校园主题的消息收集形成消息数据库;
步骤2,对该数据库中的消息文本进行文本预处理,文本预处理即为分词处理,包括语义歧义分析、未登录词提取、关键字提取和停用词处理;
步骤3,对预处理后的文本进行特征提取,其文本特征提取为独
立评价方法,所述独立评价方法包括信息增益、X2统计量和文档频率算法,所述信息增益通过需要计算特征项权重大小来对文本类簇进行分类,其是通过下述公式(1)计算获取分类信息多的特征词,
其中,文本集合表示类别ci的概率是P(ci),并且文本集合表示特征词t的概率是P(t),P(ci|t)包含特征词t文本属于预定义类别ci,是如果特征词t不在文本内则文本属于类别ci的概率,n是文本类别的数量;
所述X2统计量是用于评估特征项的重要水平,由特征项携带的文本信息的量通过量化来量化,其通过下述公式(2)来统计量,
其中,N是提取的文本的数目,Cj是聚类,A是Cj中的文本的数目,并且C不是特征中的文本,B是特征项ti外部的文本的数目Cj簇,并且D是不在特征项ti中的Cj簇外部的文本的数量;
所述文档频率算法是通过包括多个文档来计算文档的数量以评估特征;
步骤4,将提取的特征词指定为知识表示模型;
步骤5,针对文本知识表示模型由计算机通过聚类算法来计算对象,用同一主题的文本一起形成一个主题库,该主体库即为热门话题库。
与相关技术相比,本发明提供的基于智慧校园信息服务平台的话题发现方法可以获得准确的舆情方式和重要元素,从而正确形成舆论。对智慧主题聚类过程可以更快更好地进行处理,并且当报告的消息数量较大时,聚类的精度可以保持较高。
附图说明
图1为本发明的校园热门话题发现模块的结构示意图;
图2为本发明的话题发现流程图;
图3为图2中文本预处理的流程图;
图4为图2中文本表示模型的流程图;
图5为本发明的聚类算法的(CDet)Norm值测试图。
具体实施方式
请同时参阅图1和图2,其中,图1为本发明的校园热门话题发现模块的结构示意图,图2为本发明的话题发现流程图。本发明提供的一种基于智慧校园信息服务平台的话题发现方法,包括:
步骤1,建立智能校园信息服务平台,在互联网上校园主题的消息收集形成消息数据库。
步骤2,对该数据库中的消息文本进行文本预处理,该文本预处理具体包括语义歧义分析、未登录词提取、关键字提取和停用词处理。请结合参阅图3为图2中文本预处理的流程图。校园的热点主题发现模块采用ICTCLAS分词系统,通过给定的停用词过滤粗糙的词,删除语气词,助词和连词,最终输出中文词典。
步骤2中的中文分词采用统计分词法、N-最短路径方法和字符串匹配分词法中的任意一种或者组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贺州学院,未经贺州学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710216639.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置