[发明专利]标题推断器有效
申请号: | 201910111922.2 | 申请日: | 2019-02-13 |
公开(公告)号: | CN110162773B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 达雷尔·E·贝勒特 | 申请(专利权)人: | 柯尼卡美能达美国研究所有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 李颖 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开涉及标题推断器。提供一种处理电子文档(ED)以推断ED中的标题的方法。所述方法包括:生成ED的置标版本,所述ED的置标版本包含ED中包括的字符的文本样式属性,文本布局属性和文本内容信息;生成文本样式属性和文本布局属性的统计信息;对于每个文本样式属性和文本布局属性,计算相对加权分数;对于ED中的每个段落:根据所述统计信息和相对加权分数计算样式标准分数和布局标准分数;根据文本内容信息计算文本内容分数;和根据样式标准分数、布局标准分数和文本内容分数计算标题置信度分数;以及生成ED的包括每个段落的标题置信度分数的元数据,用于推断ED中的标题。 | ||
搜索关键词: | 标题 推断 | ||
【主权项】:
1.一种处理电子文档以推断电子文档中的标题的方法,其中所述电子文档包含多个字符,所述方法包括以下步骤:生成电子文档的置标版本,所述电子文档的置标版本包含电子文档中的字符的文本样式属性、文本布局属性和文本内容信息,其中根据文本布局属性,所述字符被分组成至少第一段落和第二段落,和文本样式属性和文本布局属性中的每个与预定加权分数关联;生成文本样式属性和文本布局属性的统计信息;对于文本样式属性和文本布局属性中的每个,根据所述预定加权分数和统计信息计算相对加权分数;对于第一段落和第二段落中的每个:根据所述统计信息和相对加权分数计算样式标准分数和布局标准分数;根据文本内容信息计算文本内容分数;和根据样式标准分数、布局标准分数和文本内容分数,计算标题置信度分数;和对于电子文档,生成包括第一段落和第二段落中的每个的标题置信度分数的元数据,用于推断电子文档中的标题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于柯尼卡美能达美国研究所有限公司,未经柯尼卡美能达美国研究所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910111922.2/,转载请声明来源钻瓜专利网。