[发明专利]海量文本中低占比信息识别方法及装置有效
申请号: | 201511002761.1 | 申请日: | 2015-12-28 |
公开(公告)号: | CN105653649B | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 倪时龙;苏江文;吴飞;王秋琳;宋立华 | 申请(专利权)人: | 福建亿榕信息技术有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 福州市景弘专利代理事务所(普通合伙) 35219 | 代理人: | 林祥翔;吕元辉 |
地址: | 350000 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量 文本 中低占 信息 识别 方法 装置 | ||
一种海量文本中低占比信息识别方法及装置,其中方法包括如下步骤,将素材信息分为训练信息和测试信息,将所述素材信息通过特征选择、向量化处理转化成可分析的数学矩阵,代入集成学习模型进行模型训练;所述模型训练包括步骤,根据训练信息构建第一分析模型;将测试信息代入分析模型,对所述第一分析模型的运行效果进行评估,得到评估值,根据评估值调整第一分析模型中各算法的训练信息分配权重得到新的分析模型;本方法解决了大量数据中低占比的少量待识别信息的识别问题。
技术领域
本发明涉及大数据处理方法,尤其涉及一种在待识别信息占比很低的海量信息中进行信息识别的方法及装置。
背景技术
随着互联网的不断发展,互联网舆论(博客,论坛,微博、微信公众号等)已经取代平面媒体,成为舆论的重要来源。针对互联网的舆论分析对企业有重要作用,例如,在新产品的营销方面,通过收集互联网上的情感信息并进行分析,企业可以进行更全面的客户体验管理和公司反馈管理,了解群众的需求,为公司更好地完善自己的产品,制定更符合用户的生产策略提供帮助,为用户提供更好的服务;而对于政府、央企等大型机构而言,互联网舆论越来越对自身的品牌形象有重大影响,需要针对性地监测、引导,避免有不利于自身的不实舆论得到广泛传播,这就带来了对互联网负面言论监测的广泛需求,特别是针对负面舆情的识别是监测。
一个完整的互联网负面舆情监测系统,涉及到互联网信息采集、相关性判断、负面倾向性分析、可视化展示等过程:
1.互联网信息采集。通过网络爬虫,从指定的新闻门户、论坛、博客、微博等站点抓取最新的互联网舆情信息。
2.相关性判断。对采集到的舆情进行相关性判断(是否与目标组织有关,比如:是否有“XX企业”有关),将不相关的信息进行丢弃处理。
3.负面倾向性分析。对目标组织相关的互联网舆情,进行倾向性判断。倾向性包括正面、中立和负面,其中,有价值的是负面。
4.可视化展示。将监测到的负面舆情以表格、图文、报表等方式进行统计展示,供舆情监测工作人员使用。
然而,在实践过程中,我们发现将目前机器学习领域文本分析的成熟算法直接用于互联网负面舆情的识别的效果并不好,主要是因为互联网负面舆情在所有舆情中的占比很小,导致传统机器学习算法难以准确识别,即:分析过程的“欠拟合”现象。
例如图1所示,根据我们运营的某大型央企舆情监测系统统计显示,每年采集约1000万条相关舆情信息,其中负面舆情每年不超过5万条,占比小于0.5%。而如上文所述,传统的机器学习算法采用的是模式相关性判断方法,即将“待分析舆情”与“正面或中立舆情模式”以及“负面舆情模式”二者进行相关性判断,其是否被判断为负面舆情,取决于与“负面舆情的模式”相关性是否比较高。在“正面或中立舆情”文章占绝大多数比例情况下,少量的负面舆情经常难以被识别出来,通常称这种现象为“欠拟合”。
综上所述,在互联网舆情信息的负面倾向性判断过程中,现有的方案存在“需要维护词典,且由于词典更新无法满足时效而导致误判和漏判”以及“负面舆情占比小,传统机器学习算法直接应用容易产生过拟合”等缺陷,不能很好解决负面舆情的倾向性判断问题。本专利提出一种利用基于传统机器学习算法的综合优化思路,能够解决上述问题,从而能够有效地用于舆情情感倾向性分析中。
发明内容
为此,需要提供一种大数据中识别少量待识别信息的方法。
为实现上述目的,发明人提供了一种海量文本中低占比信息识别方法,包括如下步骤,将素材信息分为训练信息和测试信息,将所述素材信息通过特征选择、向量化处理转化成可分析的数学矩阵,代入集成学习模型进行模型训练;
所述模型训练包括步骤,根据训练信息构建第一分析模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建亿榕信息技术有限公司,未经福建亿榕信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511002761.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于文献内容知识图谱的多层引文推荐方法
- 下一篇:数据库管理方法与装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置