[发明专利]一种谣言识别方法在审
申请号: | 201810224475.7 | 申请日: | 2018-03-19 |
公开(公告)号: | CN108614855A | 公开(公告)日: | 2018-10-02 |
发明(设计)人: | 陈鸿睿;肖日新;马斌;纪其进 | 申请(专利权)人: | 众安信息技术服务有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 张慧娟 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本内容 分词 向量 文本 高纬度 抓取 分类器模型 分词处理 句子向量 判别模型 人力成本 输出判定 输入内容 效果测试 信息输入 训练语料 中文分词 词向量 向量化 分割 映射 词库 可读 权重 判定 清洗 数据库 存储 关联 输出 | ||
本发明公开了一种谣言识别方法,所述方法包括:抓取有标记的文本内容,对文本进行清洗整理,并分割成句,将文本内容以句为单位存储到数据库中;依据中文分词词库,对分割成句的文本内容进行分词处理,将分词后的内容再次整理,变成模型可读、规范的形式作为模型的输入内容;将分词后的内容通过模型进行高纬度向量化关联映射,再将词向量进行权重上的组合,形成句子向量、段落向量或者文章向量,从模型输出;将处理后的训练语料信息输入到分类器模型进行训练,并输出判定结果;构造待测文本函数,进行谣言判别模型的效果测试。本发明在降低了人力成本的同时,提高了谣言判定的可靠性。
技术领域
本发明属于互联网和人工智能领域,具体涉及一种谣言识别方法。
背景技术
在当今互联网信息爆发的年代,人们极易获取各式各样的资讯,而面对海量资讯时,人们往往缺少辨明事物本身的能力,会被一些带有专业手法的、传播性质的、捏造的言论所迷惑,从而做出错误,甚至不利于社会发展的判断,这种言论就是人们所熟知的谣言。谣言依据内容所属领域大致可以分为:食品安全、医学健康、科学技术、传说轶事、宠物花草、自然环境6类。谣言可以伤害个人,伤害群体,甚至会伤害到社会,使得人们简单、稳定的人际关系变得复杂、紧张,使得原本比较稳定的社会秩序变得混乱、不稳定。它不仅破坏人们的团结,削弱彼此的信任,甚至会导致社会发展的停滞,社会和谐稳定。不仅仅个人会在谣言面前无力判断,大型的组织机构也常感力所不逮,促使整个社会迫切需要一种可以帮助辨明谣言的工具。
近年来,识别谣言的方法主要分为两种,一种是依赖关键词词袋的方法,另一种是使用传统统计分类方法。对于依赖关键词词袋的方法,主要是依赖情感极性词来识别谣言,而且该方法极度依赖大型的词库和分词技术,需要花费大量的人力物力去搜集、维护不同行业、不同领域的专用术语、专有名词,投入产出比极低。使用传统统计模型,例如朴素贝叶斯、决策树等,这些方法都需要先验经验,或者评判规则,先验经验以及评判规则同样需要大量的专业人士花费大量的时间与精力进行研究与制定。而且,上述方法在面对越来越复杂和隐蔽的陈述性谣言时无法正确判断(例如:紫菜是塑料做的)。
比如,“流感疫苗无法提前预防流感,无需接种”是谣言。虽然流感病毒变异的速度很快,但是流感疫苗仍然具有降低患病率的作用,接种是有意义的。传统的分类方法很难应对这种中性,没有特别关键词的情况。更有甚者,当新词出现时,如“伊波拉无法预防,无需接种流感疫苗”,如果“伊波拉”没有在词库中,则很难判断这个消息是谣言。
发明内容
本发明所要解决的技术问题在于,提供一种谣言识别方法,以解决现有的谣言识别方法不能精确的对谣言进行识别的问题。
通过对大量谣言样本数据的分析,谣言存在若干明显的特征,包括行文风格偏爱使用“哗众取宠”的感叹词(例如:震惊),文章内容与常识存在很大的逻辑差异,用一些事实刻意隐藏谬误,变化频率很高等。本发明提出了一种句子级别的谣言判别模型系统,可以捕获到文本中情感信息和以及文本上下文逻辑两方面的信息,同时模型是句子级别的,可以准确定位大篇幅文章中的谬误部分;此外,由于文章的情感极性、逻辑规则是不会随着时间的推移而改变,所以还发明了一种基于用户分类和加权的人机协作反馈系统,可以随着时间进行模型的有效优化。
为解决上述技术问题,本发明所采用的技术方案如下:
一种谣言识别方法,所述方法包括:
抓取有标记的文本内容,对文本进行清洗整理,并分割成句,将文本内容以句为单位存储到数据库中;
依据中文分词词库,对分割成句的文本内容进行分词处理,将分词后的内容再次整理,变成模型可读、规范的形式作为模型的输入内容;
将分词后的内容通过模型进行高纬度向量化关联映射,再将词向量进行权重上的组合,形成句子向量、段落向量或者文章向量,从模型输出;
将处理后的训练语料信息输入到分类器模型进行训练,并输出判定结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于众安信息技术服务有限公司,未经众安信息技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810224475.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多媒体信息投放系统和方法
- 下一篇:一种视频排序校准方法和装置