[发明专利]一种基于Spark与YARN的邮件内容分析方法在审

申请号：	201610453765.X	申请日：	2016-06-22
公开（公告）号：	CN107528763A	公开（公告）日：	2017-12-29
发明（设计）人：	高颜	申请（专利权）人：	北京易讯通信息技术股份有限公司
主分类号：	H04L12/58	分类号：	H04L12/58;G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100083 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明为一种基于Spark与YARN的邮件内容分析方法，应用于大量邮件内容分析、归类、查询、展示的处理框架。本发明所述分析方法，将大量邮件数据内容经过预处理后，进行主题定位和特征词提取，并根据特征词与主题的关联程度赋以不同的权重，对邮件内容进行量化。再根据量化结果，对邮件进行分类，将具有关联关系的邮件放在一个划分集合内。通过算法计算两封邮件之间的类似程度，并进行多次迭代计算，并将最终计算结果，写回到HBASE数据库，向外提供灵活的查询服务。本发明基于spark on YARN数据分析平台实时性、高效性、高数据吞吐能力，实现了一套邮件分析、查询及可视化的完整方案。
搜索关键词：	一种基于 spark yarn 邮件内容分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于Spark与YARN的邮件内容分析方法，主要包括5个模块：数据预处理模块、邮件特征抽取与分析模块、邮件分类与关联分析模块、数据持久化与查询模块、以及数据可视化模块；其特征在于，所述方法，将大量邮件数据内容经过预处理后，进行主题定位和特征词提取，并根据特征词与主题的关联程度赋以不同的权重，对邮件内容进行量化；再根据量化结果，对邮件进行分类，将具有关联关系的邮件放在一个划分集合内；通过算法计算两封邮件之间的类似程度，并进行多次迭代计算，并将最终计算结果，写回到HBASE数据库，并提供查询服务。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京易讯通信息技术股份有限公司，未经北京易讯通信息技术股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610453765.X/，转载请声明来源钻瓜专利网。

上一篇：一种实时更新微信网页内容的方法和系统
下一篇：一种基于特殊标识的即时通信安全功能实现方法和装置

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L12-00 数据交换网络
H04L12-02 .零部件
H04L12-28 .以通路配置为特征的，例如LAN[局域网]或WAN[广域网]
H04L12-50 .电路交换系统，即系统在通信期间通路具有完全永久性
H04L12-54 .存储转发交换系统
H04L12-64 .混合交换系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Spark与YARN的邮件内容分析方法在审

专利文献下载