[发明专利]评价装置、评价方法、评价程序和评价系统有效
申请号: | 201680091111.5 | 申请日: | 2016-11-28 |
公开(公告)号: | CN109983447B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 小岛美津夫;冈乡 | 申请(专利权)人: | 艾梅崔克斯持株公司株式会社 |
主分类号: | G06F13/00 | 分类号: | G06F13/00 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 朱丽娟;崔成哲 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 评价 装置 方法 程序 系统 | ||
提供邮件处理装置,使用按照每个字符种类对文本数据进行二值化后的数据结构来对所输入的文本数据进行评价。邮件处理装置(1)包含学习系统(2)和评价系统(3),学习系统(2)包含文本输入部(4)、数据转换部(5)和学习部(6),评价系统(3)包含文本输入部(8)、数据转换部(9)和评价部(10)。学习系统(2)从存储有垃圾邮件、正常邮件等文本数据的存储部(11)取得文本数据,构建学习模型(7)。评价系统(3)根据学习模型7对评价对象的邮件(12)进行评价,进行垃圾邮件的检测。
技术领域
本发明涉及机械地对各种文本数据进行评价的评价装置,特别涉及对电子邮件等文档数据是否相当于垃圾邮件(spam email)等进行识别的方法。
背景技术
作为排除垃圾邮件的方法,在将电子邮件发布给接收者的邮件服务器侧,预先登记用于判定是否是垃圾邮件的判定信息,例如关键字、发送者的地址、URL等,在接收到的电子邮件中包含判定信息的情况下,将接收到的电子邮件分类为垃圾邮件,舍弃该垃圾邮件,或者停止向用户的发布。此外,在用户侧的终端,根据用户自身设定出的过滤规则,将包含特定的地址或关键字的电子邮件作为垃圾邮件过滤。
例如,在专利文献1中,公开了如下电子邮件处理装置:将除了电子邮件的正文、发送者和发送地址、接收者和接收地址以外的外观信息(例如,电子邮件的行数、附件、电子邮件的形式和电子邮件的语言等)作为表示电子邮件的外观特征的概要(outline)信息提取,根据提取出的概要信息,请求外部的管理中心发送用于检测垃圾邮件的垃圾检测信息,在电子邮件的内容相当于对应的垃圾检测信息时,将该电子邮件判定为垃圾邮件,在判定为电子邮件不是垃圾邮件时,通过向外部的管理中心发送概要信息,请求更新后的垃圾检测信息。
此外,在专利文献2中,公开了减轻用于排除垃圾邮件的处理负荷并且减轻用户的操作负荷的电子邮件分类装置。具体而言,根据电子邮件的头部信息取得表示电子邮件的特征的特征向量,将特征向量作为学习数据,生成对是否是垃圾邮件进行分类的分类规则。
现有技术文献
专利文献
专利文献1:日本特许第5121828号公报
专利文献2:日本特开2011-90442号公报
发明内容
发明要解决的问题
以往,研究了进行垃圾邮件的检测、分类的方法。例如,考虑了对垃圾邮件应用自然语言分析进行文本数据的分析从而判断所输入的文本数据是否是垃圾邮件的方法。
首先,第1,存在如下方法:预先定义评价单词并使用如将是否出现这些评价单词作为数据的“Bag of Words(词袋)”这样的自然语言的数据结构来分析文本数据。在该方法中,由于判断是否出现预先定义的单词,所以存在未定义的单词不被处理并且无法考虑语序等顺序信息的问题。第2,存在如下方法:按照每N个字符对文本数据进行分割,并使用将是否出现这些文本数据作为数据的“N-gram”这样的自然语言的数据结构来分析文本数据。在该方法中,由于通过固定的字符数N进行分割,所以成为未考虑单词的意思的数据结构,并且,与“Bag of Words”同样,存在无法考虑语序等顺序信息的问题。第3,存在如下方法:使用如使用机械学习技术对单词进行向量化的“分布式表示”这样的自然语言的数据结构来分析文本数据。在该方法中,容易分析文本数据的意思,但难以处理未被定义的单词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于艾梅崔克斯持株公司株式会社,未经艾梅崔克斯持株公司株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680091111.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于安装的车厢用电加热器
- 下一篇:上行链路多用户传输