[发明专利]基于语义分析技术的敏感舆情内容识别方法和预警系统有效
申请号: | 201710179529.8 | 申请日: | 2017-03-23 |
公开(公告)号: | CN107918633B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 郑凯;李昊;黄叶敏;林南晖 | 申请(专利权)人: | 广州思涵信息科技有限公司;华南师范大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06F40/284 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510640 广东省广州市天河区瘦*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 分析 技术 敏感 舆情 内容 识别 方法 预警系统 | ||
1.一种基于语义分析技术的敏感舆情内容识别方法,其特征在于,包括以下步骤:
S1:建立敏感词向量库:导入敏感词向量库,对敏感词进行分类,每类敏感词设置一个核心词为基准词,同时以其为源节点,设置其它同类词到基准词的距离向量;
S2:语音识别处理:对音频文件进行语音识别,识别出敏感词和相关的情感词;
步骤S2中,语音识别处理包括以下步骤:
S2.1:利用语音识别引擎对音频文件进行语音识别,转换成文本;
S2.2:完成分词、词性标注、基础语义识别,保存到数据库;
S2.3:对敏感词和相关的情感词进行识别,标记;
S3:敏感内容定位:进行聚类分析,识别和语义相关的敏感词和情感词,进行语义分析判断;
步骤S3中,敏感内容定位包括以下步骤:
S3.1:进行聚类分析,识别和语义相关的敏感词和情感词;
S3.2:进行关联敏感词和情感词的度量计算;
步骤S3.2中,进行关联敏感词和情感词的度量计算,具体为:计算敏感词距离向量之差,若小于预设的值,则根据敏感词与情感词的时序和词序进行度量计算;
S3.3:实现敏感内容的识别、定位与标注;
S4:分析结果的输出:对敏感内容进行输出;
步骤S4中,分析结果的输出包括以下步骤:
S4.1:用户针对敏感词出现的频率自定义阈值;
S4.2:用户自定义预警输出方式,包括微信、短信、邮件、网页呈现;
S4.3:对敏感内容进行标注和溯源。
2.根据权利要求1所述的基于语义分析技术的敏感舆情内容识别方法,其特征在于,步骤S1中,建立敏感词库包括以下步骤:
S1.1:导入中文分词基准词库;
S1.2:建立专门的敏感词向量词库;
S1.3:对敏感词进行分类,每类敏感词设置一个核心词为基准词,同时以其为源节点,设置其它同类词到基准词的距离向量。
3.一种基于语义分析技术的敏感舆情内容预警系统,其特征在于,包括:
敏感词向量词库:用于在导入中文分词基准词库之外,导入敏感词向量词库,对敏感词进行分类,每类敏感词设置一个核心词为基准词,同时以其为源节点,设置其它同类词到基准词的距离向量;
语音识别处理模块:用于对音频文件进行语音识别,识别出敏感词和相关的情感词;包括:利用语音识别引擎对音频文件进行语音识别,转换成文本;完成分词、词性标注、基础语义识别,保存到数据库;对敏感词和相关的情感词进行识别,标记;
敏感内容定位模块:用于进行聚类分析,识别和语义相关的敏感词和情感词;进行关联敏感词和情感词的度量计算,具体为:计算敏感词距离向量之差,若小于预设的值,则根据敏感词与情感词的时序和词序进行度量计算;实现敏感内容的识别、定位与标注;
分析结果的输出模块:用于对敏感内容进行输出;包括:用户针对敏感词出现的频率自定义阈值;用户自定义预警输出方式,包括微信、短信、邮件、网页呈现;对敏感内容进行标注和溯源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州思涵信息科技有限公司;华南师范大学,未经广州思涵信息科技有限公司;华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710179529.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种预冷冻微波真空干燥鹿茸的方法
- 下一篇:一种雨伞甩干装置