[发明专利]用于非监督式信息提取的方法和设备在审
申请号: | 201780065526.X | 申请日: | 2017-08-10 |
公开(公告)号: | CN109844737A | 公开(公告)日: | 2019-06-04 |
发明(设计)人: | D.S.金;C.陈 | 申请(专利权)人: | 罗伯特·博世有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/80 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 毕铮;申屠伟进 |
地址: | 德国斯*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据库表 信息量 知识库 多个数据库 内容添加 方法和设备 多个网站 内容标识 信息提取 单独地 网站 监督 | ||
一种将有信息量内容添加到电子知识库的方法包括根据多个网站来生成多个数据库表,每个数据库表基于对应的网站;以及单独地处理每个数据库表以从每个数据库表中标识潜在有信息量内容。所述方法此外包括将被包括在所述多个数据库表中的第一预定数目的数据库表中的潜在有信息量内容标识为有信息量内容,所述第一预定数目大于一;以及将所述有信息量内容添加到电子知识库。
技术领域
本公开内容涉及信息提取的领域,并且特别地涉及改善通过非监督式信息提取所生成的数据的有用性。
背景技术
大量数据作为HTML网站被存储在因特网上。典型地,以人类读者容易理解的方式组织和呈现数据。例如,在查看包含对合适的停车场区域进行描述的信息的网站的网页中,人类读者典型地能够定位并且理解相关信息。人类读者针对上下文线索或标注而略读网页,所述上下文线索或标注指向或建议相关信息的位置。即使信息被包含在表格中或被混合在文本框内,人类读者也定位相关信息。在定位了相关信息之后,人类读者记录信息或对其做出心记使得相关信息可以在适当的时间、诸如当导航到所期望的停车场区域的时候被使用。如以上所阐明的,人类读者能够略读多段网页并且定位相关信息是几秒钟的事情;然而,对于计算机而言难以从网页中高效地标识相关信息。
信息提取(“IE”)是指使用计算机来从网站提取相关信息的过程。所提取的信息然后被存储到通过其它计算机容易可访问且可搜索的经组织的相关信息的数据库。IE的已知方式是监督式或非监督式的。监督式的IE需要工程师或技术员回顾从网站所提取的信息并且手动地确定信息是否是合期望的。也就是说,工程师或技术员手动地在无用或无兴趣的信息与有用或引起兴趣的信息之间进行辨别。工程师使得计算机通过如下操作来将有用、引起兴趣和/或有信息量的信息(在下文中统称为“有信息量内容”)存储到数据库并且丢弃无用或无兴趣的信息:创建规则集或训练示例以用于计算机遵循。规则和训练示例中的一些可特定于仅仅单个网站或网页的所提取的信息;然而,其它规则可具有更全局的使用,使得随着时间计算机在标识有信息量内容方面可变得更高效。非监督式的IE不需要工程师或技术员创建规则来用于确定所提取的信息是否有用或引起兴趣。代替地,参与非监督式IE的计算机在所提取的信息之上执行统计分析以标识有信息量内容并且以数据库表的形式输出所期望的数据。由于非监督式IE需要很少至无人类干预,所以它通常比监督式IE更快且更高效。
非监督式IE与监督式IE相比典型地不太准确。典型地,执行非监督式IE的已知系统生成“假阳性”,其是如下数据:人类将会认为所述数据无用或无兴趣,但是计算机确定为是有用或引起兴趣的。当系统将假阳性存储到有信息量内容的知识库的时候,系统的准确性降低。此外,如果不以符合计算机所应用的统计分析途径的方式呈现网站的信息内容,那么计算机可能不恰当地提取并且组织有信息量内容。
非监督式IE具有更高效地将有信息量内容添加到知识库的潜能。然而,存在增大非监督式IE的精度和查全率的持续的需要。因而,在非监督式IE的领域中的进一步的发展是合期望的。
发明内容
根据本公开内容的示例性实施例,一种用于将有信息量内容添加到电子知识库的方法包括:根据多个网站来生成多个数据库表,每个数据库表基于对应的网站;以及单独地处理每个数据库表以从每个数据库表中标识潜在有信息量内容。所述方法此外包括将被包括在所述多个数据库表中的第一预定数目的数据库表中的潜在有信息量内容标识为有信息量内容,所述第一预定数目大于一;以及将所述有信息量内容添加到电子知识库。
根据本公开内容的另一示例性实施例,一种信息提取系统包括可操作地连接到因特网并且包括处理器的远程计算机,所述处理器被配置成:根据经由因特网可访问的多个网站来生成多个数据库表,每个数据库表基于对应的网站;单独地处理每个数据库表以从每个数据库表中标识潜在有信息量内容;将被包括在所述多个数据库表中的第一预定数目的数据库表中的潜在有信息量内容标识为有信息量内容,所述第一预定数目大于一;以及将所标识的有信息量内容添加到电子知识库。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780065526.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:概括视频内容
- 下一篇:运算处理电路和识别系统