[发明专利]一种数字化语法连续创建的方法无效
申请号: | 200910169827.4 | 申请日: | 2009-09-04 |
公开(公告)号: | CN101650707A | 公开(公告)日: | 2010-02-17 |
发明(设计)人: | 蒋贤春;郑珑;蓝德康;谢术清;朱人杰 | 申请(专利权)人: | 北京中易中标电子信息技术有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100029北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数字化 语法 连续 创建 方法 | ||
技术领域
本发明属于IT领域,它提供一种数字化语法连续创建的方法,使得数字化内容在语法上是连续的。
本发明特点:数字化加工单位通过本发明提供的文本语法连续标记方法、多行小字语法连续标记方法、着重词语法连续标记方法,在加工一种文献之前先分析文献行与行之间、页与页之间、多行小字行与行之间、着重词跨行跨页语法连续规律,在加工完成后先通过语法连续生成模块生成格式规范的含有语法连续知识的文件,再通过语法连续内容获取模块提取一种文献连续的内容。
背景技术
随着现代计算机通讯、网络技术的迅猛发展,以内容革命为核心的第二次信息革命正在世界各国全面铺开,信息资源数字化成为当代信息社会的必需。读者可以通过网络获取大量的知识,但是对大量历史文献,因为版面格式复杂,数字化内容语法连续出现较大差错,通常都是将不该连接的句子连在一起,用户检索时产生错误。海量数据检索后,检索出的数据量很大,其中又有一大部分是错误信息。
数字化内容正确分段、正确的文献内容上下文语法连接对于内容研究人员尤其重要。
发明内容
本发明为一种数字化语法连续创建的方法,包括标记语法连续的方法、语法连续生成模块、语法连续内容获取模块。
一、标记语法连续的方法
1.文本语法连续标记方法
(1)连续标识:连续标识为非负整数或一对非负整数,标识该文本与其它文本的语法连续关系。
连续标识=0:表示该文本与其它文本无语法连续关系;
连续标识=1:表示该文本与其它文本语法连续;
连续标识=2:表示该文本中的空格符是用于版式,空格前后的字在语法上是连续的;
(2)连续关系编号:连续关系编号为整数或一对整数,给文本编号,通过编号连接连续的文本。
连续关系编号=0:表示该文本与下一行的连续关系;
连续关系编号>1:表示该文本后与连续编号为负,绝对值相等的文本的语法连续;
连续关系编号<1:表示该文本前与连续编号为正,绝对值相等的文本的语法连续。
2.多行小字语法连续标记方法
连续标识:标识所有多行小字行与行之间语法连续关系。
连续标识=0:不连续;
连续标识=1:连续
3.着重词语法连续标记方法
(1)连续标识:表示两个着重词之间的语法连续关系。
连续标识=0:表示该着重词与其它着重词无语法连续关系;
连续标识=1:表示该着重词与其它着重词语法连续;
(2)连续关系编号:连续关系编号为整数或一对整数,给着重词编号,通过编号连接连续的着重词。
连续关系编号>1:表示该着重词后与连续编号为负,绝对值相等的着重词的语法连续;
连续关系编号<1:表示该着重词前与连续编号为正,绝对值相等的着重词的语法连续。
二、语法连续生成模块
不同数字化加工单位加工完成的原始数据是离散的,通常是存在数据库和数据文件中,格式不统一,通过本发明提供的语法连续生成模块,将原始数据格式化,便于生成语法连续的内容。
1.文本语法连续生成模块:将文本语法连续原始数据生成规范格式数据。
2.多行小字语法连续生成模块:将多行小字语法连续原始数据生成规范格式数据。
3.着重词语法连续生成模块:将着重词语法连续原始数据生成规范格式数据。
三、语法连续内容获取模块
连续内容提取模块:判断格式规范的数据中的连续标记,提取一种文献连续的内容。
附图说明
图1:标记语法连续的方法。
图2:语法连续生成模块。
图3:语法连续内容获取模块。
具体实施方式
下面通过示例给出本发明的应用方法:
以生成XML规范格式为例,创建文本语法连续标记为text_unite,多行小字语法连续标记为multi_text_unite。
1.两个连接着的文本(前后两个含内容的文本)
(1)找出语法连续规律:若后一个文本缩进属性值为0,则两个文本语法连续;
若后一个文本缩进属性值不为0,则两个文本语法不连续。
(2)生成规范格式数据(生成XML格式为例):
例1:
<text_unite id=”1”num=”0”><text reverse=″reverse″>内容</text><text_unite/>
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中易中标电子信息技术有限公司,未经北京中易中标电子信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910169827.4/2.html,转载请声明来源钻瓜专利网。