[发明专利]基于语义分析技术的敏感舆情内容识别方法和预警系统有效
申请号: | 201710179529.8 | 申请日: | 2017-03-23 |
公开(公告)号: | CN107918633B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 郑凯;李昊;黄叶敏;林南晖 | 申请(专利权)人: | 广州思涵信息科技有限公司;华南师范大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06F40/284 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510640 广东省广州市天河区瘦*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 分析 技术 敏感 舆情 内容 识别 方法 预警系统 | ||
本发明提供一种基于语义分析技术的敏感舆情内容识别方法及预警系统,所述方法在导入中文分词基准词库之外,增加敏感词向量库,对敏感词进行分类,每类敏感词设置一个核心词为基准词,同时以其为源节点,设置其它同类词到基准词的距离向量;对音频文件进行语音识别,识别出敏感词和相关的情感词;进行聚类分析,识别和语义相关的敏感词和情感词,进行语义分析判断;对敏感内容进行识别并输出。本发明在传统的自然语言词库基础上,建立敏感词向量库,同类敏感词之间建立向量距离关系。在实际应用领域,如对实时通话内容或者课堂教学内容,可自动进行敏感内容识别和预警。利用本发明的方法,可以实现敏感语义的判断,准确率大为提升,从而实现敏感舆情内容的监控。
技术领域
本发明涉及信息技术、信息安全和教育技术领域,更具体地,涉及一种基于语义分析技术的敏感舆情内容识别方法和预警系统。
背景技术
语音识别技术和自然语言处理被广泛应用于通信、工业、家电、车联网、医疗、家庭服务、消费电子产品等各个领域。
在信息安全领域,尤其是在通信过程的敏感内容识别上,当前的主要做法只是依赖敏感词标注及词频统计,对语义不存在分析,因此存在比较大的误报率。
在教育技术领域,语音识别技术应用被局限在口语评测和语音翻译,缺乏对课堂内容的识别和预警。在思政课课堂教学领域,目前还主要依靠人工听课(现场听课或视频回顾)的方式进行教学审查,效率很低。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
本发明的首要目的是提供一种基于语义分析技术的敏感舆情内容识别方法,能够在基础语义分析的结果上,实现敏感内容的识别和精准分析,准确率大为提升。
本发明的进一步目的是提供一种基于语义分析技术的敏感舆情内容预警系统,实现敏感内容的识别和精准分析并输出。
为解决上述技术问题,本发明的技术方案如下:
一种基于语义分析技术的敏感舆情内容识别方法,包括以下步骤:
S1:建立敏感词向量词库:导入敏感词向量库,对敏感词进行分类,每类敏感词设置一个核心词为基准词,同时以其为源节点,设置其它同类词到基准词的距离向量;
S2:语音识别处理:对音频文件进行语音识别,识别出敏感词和相关的情感词;
S3:敏感内容定位:进行聚类分析,识别和语义相关的敏感词和情感词,进行语义修正;
S4:分析结果的输出:对敏感内容进行输出。
在一种优选的方案中,步骤S1中,建立敏感词库包括以下步骤:
S1.1:导入常用的中文分词基准词库;
S1.2:建立专门的敏感词向量词库;
S1.3:对敏感词进行分类,每类敏感词设置一个核心词为基准词,同时以其为源节点,设置其它同类词到基准词的距离向量。
在一种优选的方案中,步骤S2中,语音识别处理包括以下步骤:
S2.1:利用语音识别引擎对音频文件进行语音识别,转换成文本;
S2.2:完成分词、词性标注、基础语义识别等自然语言理本过程,保存到数据库;
S2.3:对敏感词和相关的情感词进行识别,标记。
在一种优选的方案中,步骤S3中,敏感内容定位包括以下步骤:
S3.1:进行聚类分析,识别和语义相关的敏感词和情感词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州思涵信息科技有限公司;华南师范大学,未经广州思涵信息科技有限公司;华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710179529.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种预冷冻微波真空干燥鹿茸的方法
- 下一篇:一种雨伞甩干装置