[发明专利]基于文本语义相关乘客评价的城铁舆情信息分析方法在审
申请号: | 202011614328.4 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112650848A | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 贾立鹏;闻一龙;包峰 | 申请(专利权)人: | 交控科技股份有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F16/31;G06F16/951;G06F16/9536;G06F16/955;G06F40/194;G06F40/205;G06F40/295;G06F40/30;G06N20/00 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 马瑞 |
地址: | 100070 北京市丰台区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 语义 相关 乘客 评价 城铁 舆情 信息 分析 方法 | ||
1.一种基于文本语义相关乘客评价的城铁舆情信息分析方法,其特征在于,该方法应用于包括网络舆情信息采集模块、舆情信息萃取模块、舆情信息预处理模块、舆情信息挖掘模块、舆情信息分析模块和包含舆情信息数据库的网络舆情信息分析系统,该方法包括:
步骤S1,网络舆情信息采集模块从网页中采集各种舆情信息,并存储到舆情信息数据库中;
步骤S2,舆情信息萃取模块和舆情信息预处理模块将步骤S1采集的舆情信息进行初步过滤和切分,过滤出城铁相关信息,再抽取文本所包含的内容信息,为舆情信息挖掘提供数据服务;
步骤S3,舆情信息挖掘模块采用基于语义相似度的改进文本聚类分析方法,生成类别描述信息;筛选出聚类分析结果中包含的文本信息;利用基于特征统计的TFIDF词频特征计算方法统计类别特征;获取类别特征词,选择名词作为候选类别特征词,按照候选特征词权重排序,以权重值较大的候选特征词作为类别关键词,利用类别关键词之间的语义关系,形成分类结果;识别和建立新的网络城铁舆情主题,检测、跟踪已有城铁舆情主题的相关内容;
步骤S4,舆情信息分析模块把舆情信息经过步骤S3挖掘的数据进行OLAP多维统计分析;分析城铁舆情主题内容关注度和城铁舆情主题情感倾向两种舆情评测指标。
2.根据权利要求1所述的基于文本语义相关乘客评价的城铁舆情信息分析方法,其特征在于,所述步骤S1,具体包括:
所述舆情信息采集模块,对网络舆情信息源进行采集,首先对网页爬取;
再将网页内容进行格式化处理,提取舆情的主题和内容,所得数据存入txt格式或html格式文件,并存储到舆情信息数据库;
网络舆情信息采集模块采用分时访问、定时更换IP地址和模拟浏览器进行单点登录三种技术结合进行防屏蔽。
3.根据权利要求2所述的基于文本语义相关乘客评价的城铁舆情信息分析方法,其特征在于,所述步骤S1,具体包括:
从预先定义的主题相关网页的URL开始,获取网页中的文本信息;
从所述网页中抽取新的URL放入队列中,直到满足条件的舆情信息采集完毕,URL队列为空为止;
将采集到的网页文本信息按照字段分类存储到舆情信息数据库中,提供舆情信息萃取模块调用。
4.根据权利要求1-3中任一项所述的基于文本语义相关乘客评价的城铁舆情信息分析方法,其特征在于,所述步骤S2,具体包括:
所述舆情信息萃取模块清除网页中的无关内容,提取对舆情分析有用的正文部分的元信息;
对文本进行重构,将具有城铁主题代表性的信息聚集在一起,所述舆情信息预处理模块对采集的舆情信息源经过所述舆情信息萃取模块萃取后,进行中文分词处理、过滤停用词、命名实体识别、词性标注、语法解析和特征词提取,建立正序索引和倒排索引;
建立文本特征语义网络图,以文本中包含的实体E作为图的节点,两个实体之间的语义关系作为图的有向边,实体之间的语义关系结合词频信息作为节点的权重,有向边的权重表示实体关系在文本中的重要程度,所述实体E包括事物实体NE、事件实体VE、事件关系实体RE;
统计文本的词频和文本频率信息,然后进行特征词抽取,选取体现文本特征的词表示该文本。
5.根据权利要求4中任一项所述的基于文本语义相关乘客评价的城铁舆情信息分析方法,其特征在于,所述步骤S3,具体包括:
所述舆情信息挖掘模块对文本集进行预处理,包括中文分词处理、停用词过滤和结构化标签信息分析后,将信息萃取模块生成的文本数据集,根据文本特征语义网络图构建的文本语义特征描述结构,利用相似度评价方法计算文本之间的语义相似度,构建相似度矩阵,采用基于语义相似度的改进文本聚类分析方法生成聚类结果;
聚类分析结果生成类别描述信息,筛选出聚类分析结果中包含的文本信息;
利用基于特征统计的TFIDF词频特征计算方法统计类别特征,获取候选类别特征词,选择名词作为候选类别特征词,按照候选特征词权重排序,以权重值确定候选特征词作为类别关键词,利用类别关键词之间的语义关系,形成分类结果;将挖掘结果构建知识库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于交控科技股份有限公司,未经交控科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011614328.4/1.html,转载请声明来源钻瓜专利网。