[发明专利]一种电子邮件摘要生成方法及装置在审
申请号: | 201410469526.4 | 申请日: | 2014-09-15 |
公开(公告)号: | CN104182549A | 公开(公告)日: | 2014-12-03 |
发明(设计)人: | 张基恒;魏进武;李丹;汤雅妃;张呈宇 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 白莹;栗若木 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子邮件 摘要 生成 方法 装置 | ||
技术领域
本发明涉及网络领域,尤其一种电子邮件摘要生成方法及装置。
背景技术
电子邮件,是一种用电子手段提供信息交换的通信方式,是互联网应用最广的服务。通过网络的电子邮件系统,用户可以以低廉的价格、快速的方式,与世界上任何一个角落的网络用户联系,而随着各种移动终端的迅速发展,更使得用户可以随时随地的收发邮件。
电子邮件可以是文字、图像、声音等多种形式。同时,用户可以得到大量免费的新闻、专题邮件,并实现轻松的信息搜索。电子邮件的存在极大的方便了人与人之间的沟通与交流,促进了社会的发展。云技术的发展,更逐步实现了邮件的云化存储、多终端附件共享、云化管理等功能。
用户使用移动终端收发手机邮件时,图片、大附件以及较长的邮件正文都会给用户带来极大不便。以ios系统为例,在理想的3G模式下,收取一个带有2MB附件的邮件需要3-5分钟,而用户如果在乘车或者坐地铁过程中,信号的影响会使得接收过程暂停或者彻底中断,既浪费了流量,也影响了用户的正常生活和工作。
如果当用户使用移动终端时,只发送邮件的摘要供用户大概了解邮件内容,用户可以根据摘要筛选出重要的邮件进行接收,对于其它邮件则可以等使用无线网或电脑时再接收,从而有效减少流量的使用。但是,现有的摘要生成算法通常是针对内容较长的文档设计的,生成的摘要都是基于句子形成的,考虑到邮件内容大多篇幅有限,其格式也与传统书信较为相仿,正文的句子较少,如果采用现有的摘要算法提取句子作为摘要,则可能只会提取到邮件正文的某一句,从而使得一些较重要的信息被忽略。使用现有的摘要算法无法提取出有效的摘要;另外云系统中需要对批量邮件进行摘要提取,现有的摘要生成算法比较复杂,并不适用。
发明内容
本发明要解决的技术问题是提供一种适用于电子邮件的摘要生成方案。
为了解决上述问题,本发明提供了一种邮件摘要生成方法,包括:
S101、将邮件正文转换为句子序列,并进行分词;
S102、从分词得到的词汇中,提取代表人名、时间、地点的词汇保存进关键词集合;
S103、对于剩余的各词汇,分别根据该词汇在邮件正文中出现的频率,及包含该词汇的句子在所有句子中的比例计算该词汇的权重值;将权重值超过预定权重阈值的词汇保存进所述关键词集合;
S104、通过朴素贝叶斯分类模型分别计算所述关键词集合中代表人名、时间、地点的关键词以外的各关键词成为摘要的概率,最后将概率高于预定的概率阈值的关键词、代表人名、时间、地点的关键词和所述邮件的主题一起作为摘要,按照在所述邮件正文中的出现顺序输出。
可选地,所述进行分词的步骤前还包括:
判断邮件正文中是否存在部分字符具有特殊格式,且具有特殊格式的字符在所述邮件正文中所占的比例小于预定比例阈值,如果是则将所述具有特殊格式的字符作为所述摘要的组成部分;
从所述邮件正文中去除所述具有特殊格式的字符后,对剩余文档进行所述进行分词的步骤。
可选地,所述权重值为:
其中,Wf(wi)表示计算得到的词汇i的权重值,F(wi)表示词汇i在所述邮件正文中出现的频率,S表示所述句子序列中包含的所有句子的数目,Sf(wi)为所述句子序列中出现过词汇i的句子的数目。
可选地,所述步骤104包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司;,未经中国联合网络通信集团有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410469526.4/2.html,转载请声明来源钻瓜专利网。