[发明专利]用于从网络数据中生成词汇的系统和方法有效

专利信息
申请号: 201080043794.X 申请日: 2010-09-29
公开(公告)号: CN102648464B 公开(公告)日: 2012-08-22
发明(设计)人: 山格维鲁·阿木盖姆;萨蒂施·K·甘努;维吉尔·N·米哈罗维斯;阿舒拓史·A·马勒高恩卡;克利斯汀·波斯;索纳利·M·萨姆布斯;妮塔沙·瓦利亚;奎·张 申请(专利权)人: 思科技术公司
主分类号: G06F17/21 分类号: G06F17/21;G06F17/30
代理公司: 北京东方亿思知识产权代理有限责任公司 11258 代理人: 宋鹤
地址: 美国加利*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 网络 数据 生成 词汇 系统 方法
【说明书】:

技术领域

本公开一般地涉及通信领域,更具体地,涉及从网络数据中生成词 汇。

背景技术

在当今社会,通信领域变得越来越重要。尤其,有效率地收集、关联 和组织信息的能力对于组件制造商、系统设计者以及网络操作者的造成显 著障碍。该障碍由于过多的贫乏的语言模式、俚语和不适当的语法甚至变 得更困难:在当今公司环境中全部这些好像是普遍存在的。因为新的通信 平台和技术变得可用,应当开发新的协议以便优化这些新兴的协议的使 用。在内容(寻求智能地组织该内容)在网络中传播的数据监视情形中出 现了一些问题。

附图说明

为了提供本公开和特征以及它们的优势的更完整的理解,参考了与附 图相结合的如下说明,其中相同的参考数字表示相同的部分,其中:

图1是依据一个实施例的用于从网络数据生成词汇的通信系统的简化 的框图;

图2是依据一个实施例的可以出现在通信系统中的示例提取的简化的 框图;以及

图3是图示了与通信系统相关联的一系列示例步骤的简化的流程图。

具体实施方式

概览

在一个示例中提供了一种方法,该方法包括接收在网络环境中传播的 数据和将数据分离为一个或者多个字段。评估这些字段中的至少一些以便 识别这些字段内的名词和名词短语。该方法还包括基于白名单和黑名单识 别在名词和名词短语内所选择的单词。白名单包括要被加标记的多个指定 的单词,并且黑名单包括将不被加标记的多个拒绝的单词。为所选择的被 加标记的名词和名词短语而生成合成物。如果合成物被准许,则将合成物 合并在白名单中。在更具体的实施例中,这些字段包括题目字段、概念字 段、文本字段以及作者字段。该方法可以将与该数据相关联的文档分离为 第一段和第二段,该第一段包括概念字段,该第二段包括其他字段。因 此,可以基于在数据中检查到的停止单词的配置的列表将数据中的一个或 者多个词移除。还可以基于与多个终端用户相关联的数据集合建议将词包 括在白名单中或者黑名单中。

示例实施例

图1是用于从网络数据中生成词汇的通信系统10的简化框图。图1可 以包括终端用户12,该终端用户操作被配置为与互联网协议(IP)网络14 连接的计算机设备。另外,设置了管理员20,其中管理员20有通过IP网 络18与该架构连接的能力。还提供了与图1相结合的一个示例工作流程 30,当通过通信系统10接收到并且智能地处理了文件(及其内容)时, 该示例工作流程跟踪该文档(及其内容)。

通信系统10还可以包括网络协作平台(NCP)32,其包括白名单/黑 名单添加模块34、反馈环模块36以及管理员建议接口38。图1还包括中 央引擎40,其包括轻量级目录访问协议(LDAP)元件42、词汇馈送器模 块44、流元件50、新兴词汇主题元件46以及表格写服务元件48。

图1还包括网络探测器54,其包括先进先出(FIFO)元件56、文本 提取模块58、黑名单60、文本类型过滤器62、名词短语提取器模块64、 白名单66、文档分离器元件68以及清除主题模块70。可以将多个网络探 测器54设置在网络内的多个位置,该设备可以基于寻求对多少信息加标 记,多种网络元件的容量等。

注意转到本公开的示例实施例的示例流程和基础设施之前,提供了该 架构的工作流程的简要概览。一些自动词汇产生协议试图解决手动建立词 汇的问题。大部分方法是耗时,不灵活并且难以管理的(例如,在针对白 名单、黑名单等添加/删除/修改条目的上下文中)。通信系统10可以提供 能够为通过给定的网络的内容提供有效的标签添加的架构。该架构提供了 灵活性,这是因为该架构可以被配置为保护雇员隐私和敏感内容,例如, 其中仅仅匹配受控的商业词汇的内容可以被提取和合适地索引。

另外,通信系统10提供了词汇建立机制,该机制与演进的商业方言 联合。这意味着(在一般意义上),受控的词汇是自动地并且快速地随新 的/浮现的商业内容来演进的活动的实体。本架构的一个方面包括名词短语 提取组件,可以将其与过滤机制和流访问计数一起来提供以恢复受欢迎的 和/或新词汇条目。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思科技术公司,未经思科技术公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201080043794.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top