[发明专利]自动检测和交互显示来自多模态自然语言源的关于实体、活动和事件的信息的系统和方法在审
申请号: | 201310122395.8 | 申请日: | 2013-04-10 |
公开(公告)号: | CN103488663A | 公开(公告)日: | 2014-01-01 |
发明(设计)人: | V·卡斯泰利;R·弗洛利安;罗小强;H·拉格哈万 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 张亚非;于静 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动检测 交互 显示 来自 多模态 自然语言 关于 实体 活动 事件 信息 系统 方法 | ||
关于联邦赞助研发的声明
利用政府资助做出了本发明,其受到(由国防部高级研究计划局(DARPA)授予的)第HR0011-08-C-0110号合同的约束。政府在此发明中有一定权利。
技术领域
本公开涉及信息技术,尤其涉及自然语言处理(NLP)系统。
背景技术
新闻机构、博客、twitter、科学期刊和会议全都产生文本、音频和视频形式的极大量的非结构化数据。可以从多种语言的多种模态(例如互联网文本、音频和视频源)收集大量的这种非结构化数据和信息。需要分析信息并生成以下各项的简洁表示:1)诸如特定实体(比如人,组织,国家)的行动的信息;2)活动(例如总统选举运动);以及3)事件(例如名人的去世)。目前,可以手动生成这些表示,但是此解决方法不经济,并且尤其是从多种语言收集信息时它需要有技能的工作人员。这些手动生成的表示一般也不是可伸缩的。
发明内容
本公开的示范性实施例提供了自动提取和组织数据的方法,使用户能够交互查看有关实体、活动和事件的信息。
根据示范性实施例,信息可以从多种模态和多种语言实时地自动提取,并显示为检索到的信息的可导航且简洁的表示形式。
示范性实施例可采用自然语言处理技术来自动分析来自多种模态和多种语言的多个源的信息,这些源包括但不限于网页、博客、新闻组、无线电馈送、视频和电视。
示范性实施例可使用把外语源翻译成用户的语言的自动机器翻译系统的输出,以及可使用来自把视频和音频馈送转换成文本的自动语音转录系统的输出。
示范性实施例可采用包括信息提取工具、问答工具和提炼(distillation)工具的自然语言处理技术来自动分析如上所述生成的文本,并提取可搜索且可概括的信息。系统可执行名称实体检测、跨文档共指消解(co-reference resolution)、关系检测以及事件检测和跟踪。
示范性实施例可采用自动相关性检测技术和冗余减少方法来向用户提供相关且非冗余的信息。
示范性实施例可通过为用户提供用来指定感兴趣的实体、活动或事件(例如:通过键入自然语言查询,通过从自动生成的满足用户指定要求的实体(例如,用户指定的时间段内在数据源中突出记载的实体)的列表中选择实体,通过浏览文章来选择文本段,或者通过从在指定的时间段内自动检测的事件/话题的表示来选择事件或话题)的装置来把期望的信息显示为简洁且可导航的表示形式。
示范性实施例可通过适应性地构建与推断的用户意图最佳匹配的模板来响应于用户查询而自动生成页面(例如,如果用户选择作为政治家的人,则系统会检测此事实,搜索关于该人的选举运动、公开露面、声明和公共服务历史的信息;如果用户选择公司,则系统会搜索有关该公司的近期新闻,有关该公司的高级官员的信息,新闻发布稿,等等)。
根据示范性实施例,如果用户选择事件,则系统可以搜索有关该事件的新闻项目、对事件的反应、事件的结果以及相关事件。系统可自动检测事件中牵涉的实体,例如人、国家、地方政府、公司和组织,并检索与这些实体有关的相关信息。
示范性实施例可允许用户跟踪在生成的页面上出现的实体,包括根据可获得的数据自动生成人的简历,以及列出从可获得的数据自动提取的组织的近期行动。
示范性实施例可允许使用户查看出现在页面上的事件或活动,包括自动建立正在进行的事件中的重要时刻的时间表。
示范性实施例可允许用户查看实体和事件之间的联系(例如,提供关于公司在事件中的角色的信息,列出个人关于话题的语录,描述两个公司间的关系,总结两人之间的会面或接触以及可选地检索所需实体的图像)。
根据示范性实施例,提供了一种用于由处理装置从多个数据源自动提取和组织信息的方法。包括实体的自动检测的自然语言处理信息提取流水线被施加到数据源。通过分析自然语言处理流水线的产物来识别关于所检测的实体的信息。识别的信息分组成包含等价信息的等价类。创建等价类的至少一种可显示表示。计算至少一种可显示表示被显示的顺序。生成考虑了可显示表示被显示的顺序的等价类组合表示。
每个等价类都可包括项的集合。每项都可包括从文档提取的一段文本和有关从该段文本导出的所需实体的信息的规范(specification)。
计算可显示表示被显示的顺序可以包括随机计算顺序。
把识别的信息分组成等价类可以包括把各识别的信息分配到单独的等价类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310122395.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据机突波防护电路
- 下一篇:高压开关柜四连杆推动活门机构