[发明专利]标题推断器有效
申请号: | 201910111922.2 | 申请日: | 2019-02-13 |
公开(公告)号: | CN110162773B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 达雷尔·E·贝勒特 | 申请(专利权)人: | 柯尼卡美能达美国研究所有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 李颖 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标题 推断 | ||
本公开涉及标题推断器。提供一种处理电子文档(ED)以推断ED中的标题的方法。所述方法包括:生成ED的置标版本,所述ED的置标版本包含ED中包括的字符的文本样式属性,文本布局属性和文本内容信息;生成文本样式属性和文本布局属性的统计信息;对于每个文本样式属性和文本布局属性,计算相对加权分数;对于ED中的每个段落:根据所述统计信息和相对加权分数计算样式标准分数和布局标准分数;根据文本内容信息计算文本内容分数;和根据样式标准分数、布局标准分数和文本内容分数计算标题置信度分数;以及生成ED的包括每个段落的标题置信度分数的元数据,用于推断ED中的标题。
背景技术
电子文档(ED)(例如,字处理文档、电子表格、幻灯片、网页等)可包括最佳地描述ED内的特定内容的标题(例如,名称、题目、图例、标签、插图说明等)。通常,对用户来说,标题内的文本更易于回想。然而,在ED内,标题并不总是明确标识的(即,标示和/或标注的)。无论如何,用户仍然希望搜索ED中的标题。
发明内容
一般而言,在一个方面,本发明涉及一种处理电子文档(ED)以推断ED中的标题的方法,其中所述ED包含多个字符。所述方法包括:生成ED的置标版本,所述ED的置标版本包含ED中的字符的文本样式属性、文本布局属性和文本内容信息,其中根据文本布局属性,所述字符被分组成至少第一段落和第二段落,并且文本样式属性和文本布局属性中的每个与预定加权分数关联;生成文本样式属性和文本布局属性的统计信息;对于文本样式属性和文本布局属性中的每个,根据所述预定加权分数和统计信息计算相对加权分数;对于第一段落和第二段落中的每个,根据所述统计信息和相对加权分数计算样式标准分数和布局标准分数;根据文本内容信息计算文本内容分数;和根据样式标准分数、布局标准分数和文本内容分数,计算标题置信度分数;以及对于ED,生成包括第一段落和第二段落中的每个的标题置信度分数的元数据,用于供推断ED中的标题。
一般而言,在一个方面,本发明涉及一种处理电子文档(ED)以推断ED中的标题的系统,其中所述ED包含多个字符。所述系统包括:存储器;和连接到所述存储器的计算机处理器,所述计算机处理器:生成ED的置标版本,所述ED的置标版本包含ED中的字符的文本样式属性、文本布局属性和文本内容信息,其中根据文本布局属性,所述字符被分组成至少第一段落和第二段落,并且文本样式属性和文本布局属性中的每个与预定加权分数关联;生成文本样式属性和文本布局属性的统计信息;对于文本样式属性和文本布局属性中的每个,根据所述预定加权分数和统计信息计算相对加权分数;对于第一段落和第二段落中的每个,根据所述统计信息和相对加权分数计算样式标准分数和布局标准分数;根据文本内容信息计算文本内容分数;和根据样式标准分数、布局标准分数和文本内容分数,计算标题置信度分数;以及对于ED,生成包括第一段落和第二段落中的每个的标题置信度分数的元数据,用于供推断ED中的标题。
一般而言,在一个方面,本发明涉及一种保存用于处理电子文档(ED)以推断ED中的标题的计算机可读程序代码的计算机可读记录介质,其中所述ED包含多个字符。所述计算机可读程序代码使计算机:生成ED的置标版本,所述ED的置标版本包含ED中的字符的文本样式属性、文本布局属性和文本内容信息,其中根据文本布局属性,所述字符被分组成至少第一段落和第二段落,并且文本样式属性和文本布局属性中的每个与预定加权分数关联;生成文本样式属性和文本布局属性的统计信息;对于文本样式属性和文本布局属性中的每个,根据所述预定加权分数和统计信息计算相对加权分数;对于第一段落和第二段落中的每个,根据所述统计信息和相对加权分数计算样式标准分数和布局标准分数;根据文本内容信息计算文本内容分数;和根据样式标准分数、布局标准分数和文本内容分数,计算标题置信度分数;以及对于ED,生成包括第一段落和第二段落中的每个的标题置信度分数的元数据,用于供推断ED中的标题。
根据以下的说明和附加的权利要求书,本发明的其他方面是明显的。
附图说明
图1表示按照本发明的一个或多个实施例的系统。
图2表示按照本发明的一个或多个实施例的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于柯尼卡美能达美国研究所有限公司,未经柯尼卡美能达美国研究所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910111922.2/2.html,转载请声明来源钻瓜专利网。