[发明专利]一种数字化语法连续创建的方法无效

专利信息
申请号: 200910169827.4 申请日: 2009-09-04
公开(公告)号: CN101650707A 公开(公告)日: 2010-02-17
发明(设计)人: 蒋贤春;郑珑;蓝德康;谢术清;朱人杰 申请(专利权)人: 北京中易中标电子信息技术有限公司
主分类号: G06F17/22 分类号: G06F17/22;G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100029北京市朝阳区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数字化 语法 连续 创建 方法
【说明书】:

技术领域

发明属于IT领域,它提供一种数字化语法连续创建的方法,使得数字化内容在语法上是连续的。

本发明特点:数字化加工单位通过本发明提供的文本语法连续标记方法、多行小字语法连续标记方法、着重词语法连续标记方法,在加工一种文献之前先分析文献行与行之间、页与页之间、多行小字行与行之间、着重词跨行跨页语法连续规律,在加工完成后先通过语法连续生成模块生成格式规范的含有语法连续知识的文件,再通过语法连续内容获取模块提取一种文献连续的内容。

背景技术

随着现代计算机通讯、网络技术的迅猛发展,以内容革命为核心的第二次信息革命正在世界各国全面铺开,信息资源数字化成为当代信息社会的必需。读者可以通过网络获取大量的知识,但是对大量历史文献,因为版面格式复杂,数字化内容语法连续出现较大差错,通常都是将不该连接的句子连在一起,用户检索时产生错误。海量数据检索后,检索出的数据量很大,其中又有一大部分是错误信息。

数字化内容正确分段、正确的文献内容上下文语法连接对于内容研究人员尤其重要。

发明内容

本发明为一种数字化语法连续创建的方法,包括标记语法连续的方法、语法连续生成模块、语法连续内容获取模块。

一、标记语法连续的方法

1.文本语法连续标记方法

(1)连续标识:连续标识为非负整数或一对非负整数,标识该文本与其它文本的语法连续关系。

连续标识=0:表示该文本与其它文本无语法连续关系;

连续标识=1:表示该文本与其它文本语法连续;

连续标识=2:表示该文本中的空格符是用于版式,空格前后的字在语法上是连续的;

(2)连续关系编号:连续关系编号为整数或一对整数,给文本编号,通过编号连接连续的文本。

连续关系编号=0:表示该文本与下一行的连续关系;

连续关系编号>1:表示该文本后与连续编号为负,绝对值相等的文本的语法连续;

连续关系编号<1:表示该文本前与连续编号为正,绝对值相等的文本的语法连续。

2.多行小字语法连续标记方法

连续标识:标识所有多行小字行与行之间语法连续关系。

连续标识=0:不连续;

连续标识=1:连续

3.着重词语法连续标记方法

(1)连续标识:表示两个着重词之间的语法连续关系。

连续标识=0:表示该着重词与其它着重词无语法连续关系;

连续标识=1:表示该着重词与其它着重词语法连续;

(2)连续关系编号:连续关系编号为整数或一对整数,给着重词编号,通过编号连接连续的着重词。

连续关系编号>1:表示该着重词后与连续编号为负,绝对值相等的着重词的语法连续;

连续关系编号<1:表示该着重词前与连续编号为正,绝对值相等的着重词的语法连续。

二、语法连续生成模块

不同数字化加工单位加工完成的原始数据是离散的,通常是存在数据库和数据文件中,格式不统一,通过本发明提供的语法连续生成模块,将原始数据格式化,便于生成语法连续的内容。

1.文本语法连续生成模块:将文本语法连续原始数据生成规范格式数据。

2.多行小字语法连续生成模块:将多行小字语法连续原始数据生成规范格式数据。

3.着重词语法连续生成模块:将着重词语法连续原始数据生成规范格式数据。

三、语法连续内容获取模块

连续内容提取模块:判断格式规范的数据中的连续标记,提取一种文献连续的内容。

附图说明

图1:标记语法连续的方法。

图2:语法连续生成模块。

图3:语法连续内容获取模块。

具体实施方式

下面通过示例给出本发明的应用方法:

以生成XML规范格式为例,创建文本语法连续标记为text_unite,多行小字语法连续标记为multi_text_unite。

1.两个连接着的文本(前后两个含内容的文本)

(1)找出语法连续规律:若后一个文本缩进属性值为0,则两个文本语法连续;

若后一个文本缩进属性值不为0,则两个文本语法不连续。

(2)生成规范格式数据(生成XML格式为例):

例1:

<text_unite id=”1”num=”0”><text reverse=″reverse″>内容</text><text_unite/>

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中易中标电子信息技术有限公司,未经北京中易中标电子信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910169827.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top