[发明专利]聚焦的语义分类在审
申请号: | 201480082742.1 | 申请日: | 2014-10-31 |
公开(公告)号: | CN107077470A | 公开(公告)日: | 2017-08-18 |
发明(设计)人: | 约翰·西蒙·福瑟吉尔 | 申请(专利权)人: | 隆沙有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N7/00 |
代理公司: | 北京德琦知识产权代理有限公司11018 | 代理人: | 康泉,宋志强 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚焦 语义 分类 | ||
背景技术
一些计算系统可以使用包括写入文本的文档。另外,一些计算系统可以尝试解释此类文档的含义。例如,垃圾邮件过滤器可以接收传入的电子邮件,并且可以尝试确定电子邮件的文本内容的含义。然后,垃圾邮件过滤器可以基于文本内容的含义识别非期望的电子邮件。
附图说明
关于附图描述一些实施方式。
图1是根据一些实施方式的示例性计算设备的示意图。
图2是根据一些实施方式的示例性语义分析操作的图示。
图3是根据一些实施方式的示例性数据流的图示。
图4是根据一些实施方式的语义分类的过程的流程图。
图5是根据一些实施方式的语义分类的过程的流程图。
具体实施方式
在一些计算系统中,文档的语义可以基于文档中所包括的词来估计。然而,一些词可以根据文档的语境指示不同的语义,并且可能因此引起语义的错误估计。例如,在涉及医学主题的文档中,词“sick”(病)可能指示负面语义。然而,在涉及流行音乐主题的文档中,词“sick”(病)可以被用作指示正面语义的俚语。在另一个示例中,特定词可能通常用于指示正面语义,但是在指定语境中可以讽刺地使用,并且因此在那样的语境中指示负面语义。
根据一些实施方式,提供用于目标文档的语义分类的技术或机制。如以下参照图1-5进一步描述的,一些实施方式可以包括与特定语境相对应的文档的组。可以使用写入规则的集合针对每个组生成语义概要。当接收到目标文档时,可以基于与目标文档的相关度来选择特定的组。可以使用训练数据集合和选择的组的语义概要来执行目标文档的机器学习分类。在一些实施方式中,可以提供目标文档的聚焦语境的语义分类。
图1是根据一些实施方式的示例性计算设备100的示意图。计算设备100可以是例如计算机、便携式设备、服务器、网络设备、通信设备等。另外,计算设备100可以是相关或互连设备的任何分组,诸如刀片式服务器、计算集群等。此外,在一些实施方式中,计算设备100可以是用于估计文本信息的语义的专用设备。
如所示的,计算设备100可以包括处理器110、存储器120、机器可读贮存器130、和网络接口130。处理器110可以包括微处理器、微控制器、处理器模块或子系统、可编程集成电路、可编程门阵列、多个处理器、包括多个处理核的微处理器、或另一控制或计算设备。存储器120可以是任何类型的计算机存储器(例如,动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)等)。
网络接口190可以提供入站和出站的网络通信。网络接口190可以使用任何网络标准或协议(例如,以太网、光纤信道、以太网光纤通道(FCoE)、因特网小型计算机系统接口(iSCSI)、无线网络标准或协议等)。另外,网络接口190可以提供与诸如互联网网站、RSS(丰富站点摘要)供给、社交媒体应用、新闻源、消息平台等之类的信息源的通信。
在一些实施方式中,机器可读贮存器130可以包括诸如硬盘驱动器、快闪贮存器、光盘等之类的非暂时性存储介质。如所示的,机器可读贮存器130可以包括语义分析模块140、分类规则150、文档集合170、以及训练数据180。
在一些实施方式中,语义分析模块140可以经由网络接口190接收一个或多个文档供给。例如,语义分析模块140可以从诸如RSS供给、社交媒体发布、新闻专线、文本消息、订阅供给等之类的源接收连续的供给。文档供给可以是定期的或不定期的,并且可以在无限制的或延长的时间段(例如,每分钟、每天、在随机间隔、在一年或多年中的各种时间期间等)提供。在一些实施方式中,语义分析模块140可以将接收到的文档路由至一个或多个文档集合170。
在一些实施方式中,每个文档集合170可以是与特定语境相关联的文档的组。例如,指定的文档集合170可以专用于诸如政治、商业新闻、足球、棒球、音乐、游戏、爱好、健康、金融、电影、电视剧等之类的主题。本文所使用的术语“文档”可以指包括语言信息的任何数据结构。例如,文档可以包括文本信息(例如,词处理文档、注释、电子邮件、社交媒体发布、文本消息、文章、书、数据库条目、博客发布、评论、标签、图像等)。在另一示例中,文档可以包括语音信息(例如,音频记录、视频记录、语音消息等)。
在一些实施方式中,分类规则150可以是可由人类分析师写入的存储的人工制作的规则的集合。另外,分类规则150可以由人类分析师根据需要重写和更新以反映语境或主题的当前改变。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于隆沙有限公司,未经隆沙有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480082742.1/2.html,转载请声明来源钻瓜专利网。