[发明专利]一种基于Spark与YARN的邮件内容分析方法在审
申请号: | 201610453765.X | 申请日: | 2016-06-22 |
公开(公告)号: | CN107528763A | 公开(公告)日: | 2017-12-29 |
发明(设计)人: | 高颜 | 申请(专利权)人: | 北京易讯通信息技术股份有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明为一种基于Spark与YARN的邮件内容分析方法,应用于大量邮件内容分析、归类、查询、展示的处理框架。本发明所述分析方法,将大量邮件数据内容经过预处理后,进行主题定位和特征词提取,并根据特征词与主题的关联程度赋以不同的权重,对邮件内容进行量化。再根据量化结果,对邮件进行分类,将具有关联关系的邮件放在一个划分集合内。通过算法计算两封邮件之间的类似程度,并进行多次迭代计算,并将最终计算结果,写回到HBASE数据库,向外提供灵活的查询服务。本发明基于spark on YARN数据分析平台实时性、高效性、高数据吞吐能力,实现了一套邮件分析、查询及可视化的完整方案。 | ||
搜索关键词: | 一种 基于 spark yarn 邮件 内容 分析 方法 | ||
【主权项】:
一种基于Spark与YARN的邮件内容分析方法,主要包括5个模块:数据预处理模块、邮件特征抽取与分析模块、邮件分类与关联分析模块、数据持久化与查询模块、以及数据可视化模块;其特征在于,所述方法,将大量邮件数据内容经过预处理后,进行主题定位和特征词提取,并根据特征词与主题的关联程度赋以不同的权重,对邮件内容进行量化;再根据量化结果,对邮件进行分类,将具有关联关系的邮件放在一个划分集合内;通过算法计算两封邮件之间的类似程度,并进行多次迭代计算,并将最终计算结果,写回到HBASE数据库,并提供查询服务。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易讯通信息技术股份有限公司,未经北京易讯通信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610453765.X/,转载请声明来源钻瓜专利网。