[发明专利]文本语义的可视化表示与获取方法无效
申请号: | 200710041147.5 | 申请日: | 2007-05-24 |
公开(公告)号: | CN101067807A | 公开(公告)日: | 2007-11-07 |
发明(设计)人: | 骆祥峰;方宁;徐炜民 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 上海上大专利事务所 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 语义 可视化 表示 获取 方法 | ||
技术领域:
本发明涉及一种计算机自动生成文本语义的表示与获取方法,更具体地说,涉及一种基于语义矩阵的文本语义的可视化表示与获取方法。
背景技术:
随着信息和网络技术的发展,在今天我们可以很容易地通过电子和网络媒体获得数量巨大而且涉及各个领域的信息资源,即所谓的信息爆炸(Information Explosion)问题已经对迅速有效地组织和索引信息资源以及信息检索技术产生了迫切的需求。信息非结构化、信息种类多样化、文档内容涵盖范围广泛等因素对信息组织和检索提出了巨大的挑战。例如,Web已经成为科学研究、教育学习等领域最重要的信息源和知识库;但Web信息的指数级增长速度同时也为用户有效的利用带来了巨大的难度。近年来广泛得到建设的数字图书馆是另外一个重要的海量信息源。数字图书馆是保存大量结构化信息的数字化资源库,这些数字资源的生成者可能是传统的图书馆、博物馆、档案馆、大学、政府部门、专业组织或个人,其目标是让所有的人在任何时间、任何地点可以用任何连接互联网的数字设备来访问人类所有的知识。以一本书300页、每页1500个字符计算,百万册数字图书的文本信息共9006,再加上相关的元数据描述,XML文档总的数据量超过IT,同时数字图书馆中还含有大量用于教学、科研和娱乐的视频和音频等多媒体资源。通过搜索引擎、浏览器等软件和服务设施,用户可以访问Web或数字图书馆的信息和资源,但是用户往往需要的是更为精细、更符合需求的知识而不是成堆的信息,例如用户要求能同时获得表达同一主题的不同媒体形态的信息(例如文本形式的网页和电子书、图像和文本共存形式的演示文档、视音频形式的多媒体资料等)。因此为满足用户多样化、个性化、具有多种媒体形态的信息和知识服务需求,基于Web的信息服务系统(例如网络教育资源管理系统)以及数字图书馆的内容管理和访问系统必须具有能对这些半结构化的信息或数据进行有效的语义提取及相关的分析处理功能。
本发明涉及对文本数据资源进行语义提取,可以是指超文本、Web网页、数字图书、教育资源等,这些数据对象本身由非结构化的字符或数据流组成,但数据对象同时也具有内部结构。现有的方法对这类数据的分类存在着如下一些缺点或不足:
(1)语义提取过程中多利用纯统计的方法,而利用的语义信息少。语义信息对于检索系统的准确度以及用户需求都有重要的意义;
(2)统计方法的重要假设是:所有数据都是具有相同结构的实体,数据之间是独立且同分布的(Independent and identically distributed)。然而,许多现实数据集本身具有复杂的内部结构。例如我们可以用传统的文本挖掘方法来进行超文本的主题提取和分类,即将每个文档用关键字或术语向量来进行描述,在此基础上对每个网页进行独立的分类。这种统计方法完全忽略了文档的内部结构。一般地,每个文档内部也具有节、段等结构。因此,在对这种半结构化数据资源进行处理的过程中,我们不能忽略数据之间的关系关联。
为解决上述两个问题,我们需要有新的模型和方法来利用文本的内部结构来对半结构关系数据进行有效的语义提取和分析。本发明即给出这样一种文本语义表示与获取方法,其核心是从文本的内部结构来建模文本语义的上下文依赖关系,在基于矩阵运算的推理规则(模糊认知图)的基础上构造文本语义表示模型并加以可视化。
发明内容:
本发明的目的在于针对已有技术存在的问题,提供一种文本语义的可视化表示与获取方法,这种方法能利用文本数据之间的内部结构进行更有效地语义提取。这种方法能直接应用在不同的半结构化数据资源。本发明的文本数据是指超文本、Web网页、数字图书、教育资源等,这些数据对象本身由非结构化的字符或数据流组成,但数据对象同时具有复杂的内部结构。
为实现上述目的,本发明的构思是:用语义矩阵及其图形可视化来建模这些半结构化数据的内部多层语义结构。本发明的语义矩阵及其图形可视化可以用于建模具有复杂内在结构的半结构化数据对象,从而能有效地刻画数据对象内部结点间上下文主题相关关系。
根据上述的发明构思,本发明采用下述技术方案:
一种文本语义的可视化表示与获取方法,其特征在于将文本语义划分为三个层次:离散的关键词的集合构成的文本低层语义、文本段落构成的文本主题作为文本的中层语义和由文本主题之间相互链接而构成文本篇章的高层语义;通过提取关键词和基于关键词权重的矩阵运算生成文本主题的语义矩阵,再通过文本主题的链接形成文本篇章语义;具体操作步骤如下:
(1)将文本语义划分为三个层次:离散的关键词的集合构成的文本低层语义、
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710041147.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电热、远红外、磁疗保健保暖裤
- 下一篇:一种羽绒衬衫