[发明专利]数字出版物的自动标注方法在审
申请号: | 201410562853.4 | 申请日: | 2014-10-22 |
公开(公告)号: | CN105320716A | 公开(公告)日: | 2016-02-10 |
发明(设计)人: | 杨朝阳;刘永坚;白立华;李文忠;杨慧;朱驰风 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 张惠玲 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种数字出版物的自动标注方法。包括如下步骤:解析文档:采用解析工具将pdf文档的页面进行解析,并将解析后数据合理的存储方便分词等后续处理调用;提取关键字:对照现有的关键字表,以段落为单位对文档的每一页的每一段进行关键字提取,并存入计算机系统;同义词归并:以段落为单位,在计算机系统内,对段落关键字进行同义词归并得到最终关键词;权值计算:利用计算机系统,为最终的关键字进行权值计算,并保存;带标注的电子文档:将得到的关键字及相关信息与页面数据关联形成标注信息,得到带标注的电子文档。本发明方法能够对数字出版物提供标注信息的查看,实现数字出版物的带标注预览和阅读方式,能够方便读者快速有效的查看文档中的主题信息。 | ||
搜索关键词: | 数字 出版物 自动 标注 方法 | ||
【主权项】:
数字出版物的自动标注方法,其特征在于,包括如下步骤:解析文档:在计算机系统中,采用解析工具将pdf文档的页面进行解析,解析之后可以获取到pdf文档的所有页面数据,通过目录、段落特征识别出目录页以及页面段落,并将这些数据合理的存储方便分词等后续处理调用;提取关键字:对照现有的关键字表,以段落为单位对文档的每一页的每一段进行关键字提取,并存入计算机系统;同义词归并:以段落为单位,在计算机系统内,对段落关键字进行同义词归并得到最终关键词;权值计算:利用计算机系统,为最终的关键字进行权值计算,并保存;带标注的电子文档:将得到的关键字及相关信息与页面数据关联形成标注信息,得到带标注的电子文档。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410562853.4/,转载请声明来源钻瓜专利网。