[发明专利]数字出版物的自动标注方法在审

申请号：	201410562853.4	申请日：	2014-10-22
公开（公告）号：	CN105320716A	公开（公告）日：	2016-02-10
发明（设计）人：	杨朝阳;刘永坚;白立华;李文忠;杨慧;朱驰风	申请（专利权）人：	武汉理工大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	湖北武汉永嘉专利代理有限公司 42102	代理人：	张惠玲
地址：	430070 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数字出版物自动标注方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.数字出版物的自动标注方法，其特征在于，包括如下步骤：

解析文档：在计算机系统中，采用解析工具将pdf文档的页面进行解析，解析之后可以获取到pdf文档的所有页面数据，通过目录、段落特征识别出目录页以及页面段落，并将这些数据合理的存储方便分词等后续处理调用；

提取关键字：对照现有的关键字表，以段落为单位对文档的每一页的每一段进行关键字提取，并存入计算机系统；

同义词归并：以段落为单位，在计算机系统内，对段落关键字进行同义词归并得到最终关键词；

权值计算：利用计算机系统，为最终的关键字进行权值计算，并保存；

带标注的电子文档：将得到的关键字及相关信息与页面数据关联形成标注信息，得到带标注的电子文档。

2.如权利要求1所述的数字出版物的自动标注方法，其特征在于：所述的解析文档步骤中，对解析数据的再识具体为：对解析工具获取的解析数据，主要完成对文本行内容表示和目录页、段落开始于结束位置的识别；其中：

文本行表示：根据每行的每一个文字的两个定位点信息。

3.将获取的页面数据流以“行”为单位存储到一个自定义行对象中，并将一整页的行数据存储到一页Arraylisl<>中，通过访问可以获取每一行中每一个字的内容和定位点信息；

目录页识别：根据目录格式的特性，对同一特殊字符出现超过10个的判定为目录页；

段落识别：根据段落格式的特性，每段开始都有2个汉字的空格即两个空个字符位，段落的结束刚好是下一段落开始前一行；

如权利要求1所述的数字出版物的自动标注方法，其特征在于：所述的提取关键字具体为：采用ansj分词组件对pdf内容按段落分词并抽取出段落关键字。

4.如权利要求1所述的数字出版物的自动标注方法，其特征在于：所述的同义词归并具体为：把抽取出的段落关键字通过同义词归并组件xsimilarity，进行两两对比计算词语前的相似度归并同义信息，减少标注信息冗余。

5.如权利要求1所述的数字出版物的自动标注方法，其特征在于：所述的权值计算具体为：通过ansj提供的权值计算接口获取关键字权值，并将关键字和权值信息按段落关联方式存储。

6.如权利要求1所述的数字出版物的自动标注方法，其特征在于：所述的带标注的电子文档具体为：将关键字和权值信息取出，按照段落相关的方式提供给用户查看。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉理工大学，未经武汉理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410562853.4/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载