[发明专利]一种基于最紧致片段的IETM技术信息片段检索装置及其检索方法有效

专利信息
申请号: 201510394706.5 申请日: 2015-07-08
公开(公告)号: CN104899340B 公开(公告)日: 2018-01-23
发明(设计)人: 赖初荣;冯伟强;鄂弢金;徐志超;姚崇东;李万超 申请(专利权)人: 哈尔滨工程大学船舶装备科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 哈尔滨市船大专利事务所23201 代理人: 张耀华
地址: 150001 黑龙江省哈尔滨市南岗*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 最紧致 片段 ietm 技术 信息 检索 装置 及其 方法
【权利要求书】:

1.一种基于最紧致片段的IETM技术信息片段检索装置,包括发布器、检索器和存储器三个部分,其特征在于:所述发布器接收符合GJB6600的交互式电子技术手册,通过特征提取模块提取数据模块的主干内容结构并编码,然后存储在主干信息存贮模块中;所述检索器通过关键词激励模块进行关键词的语义分析,根据关键词进行信息片段的嗅探、提取,应用相似度过滤器对提取的各信息片段进行过滤,对技术信息片段进行检索;存储器的主干信息集存贮结构存储符合GJB6600的模式约束特征、片段提取规则和主干信息的数据,以及各数据存放的结构描述;

所述发布器包括特征提取模块、编码模块和主干信息存储接口,其特征在于:

所述的特征提取模块通过对GJB6600标准的分析,对段落、图形、表格、多媒体和警示信息的Schema进行简化,将无实际显示意义的子元素和属性以及有显示意义但不参与检索的元素和属性裁减掉,形成数据模块的特征规则,根据特征规则过滤选定装备IETM的各数据模块,只将特征规则中的各类Schema元素及其内容作为主干信息结构抽取出来,表示为XML结构树抽取数据模块的主干信息结构;

所述的编码模块通过Dewey编码方式遵循宽度优先遍历的原则为主干信息结构中的各节点编码;将每1个主干信息结构形成1个Dewey码;编码中存储各节点所属层级、路径信息。

2.根据权利要求1所述的一种基于最紧致片段的IETM技术信息片段检索装置,所述检索器包括关键词激励模块、片段嗅探模块、片段提取模块、相似度过滤模块和包装模块,其特征在于:

所述的关键词激励模块按照先分句再分词的方式,采用双向最大匹配算法对用户输入的关键词字符串进行分词/语义分析处理,即按正向最大匹配法和逆向最大匹配法都切分一次,将关键词形成多个小粒度词串,供片段检索时使用;

所述的片段嗅探模块在检索开始前将关键词词串与数据库中存储与数据模块类型相关的词串对比,根据词串相似度将用户可能感兴趣的数据模块类型排序;

片段提取模块根据片段类型,提取XML片段块的主干结构;

相似度过滤模块采用按逐层匹配计算XML片段各节点路径段数的方式计算相似度,将交互式电子技术手册中在不同的数据模块中重复出现的相同的图片、段落或表格过滤掉;

包装模块:基于CSS和XSLT对检索结果的各XML片段内容进行封装。

3.根据权利要求1所述的一种基于最紧致片段的IETM技术信息片段检索装置,所述存储器包括主干信息存贮模块、主干特征提取规则存贮模块和片段提取规则存贮模块,其特征在于:

所述的主干信息存贮模块对符合GJB6600的交互式电子技术手册中所有数据模块的XML主干信息结构存贮;

所述的主干特征提取规则存贮模块根据GJB6600技术标准,定义文字段落、图、表格、音视频、动画模式约束中与被检索信息有关联的主干特征提取规则,对以上规则进行动态存贮;

所述的片段提取规则存贮模块用于描述根据信息片段的主干结构从数据模块中提取整体的数据块的过程。

4.一种基于最紧致片段的IETM技术信息片段检索方法,其特征在于,包括如下步骤:

建立基于GJB6600的主干特征提取规则及其存贮结构:通过对GJB6600标准的分析,定义段落、图形、表格、多媒体和警示信息共5类技术信息基础表现形式的主干特征提取结构,并基于数据库中的XML管理技术实现Schema结构的存储;

基于主干特征提取规则,完成交互式电子手册主干信息结构提取:对IETM进行初始化加载,同时对选定IETM及其数据模块的完整性和规范性进行校验,如发现不符合标准,则给出错误提示信息;数据模块全部通过校验后,系统按顺序逐一读取数据模块,并结合其模块类型提取主干信息结构:加载并解析XML数据模块,按序解析子元素的名称,并用该名称到主干特征提取规则存贮结构中进行匹配,如匹配成功,将对该元素按主干特征提取规则存贮结构中RULES所描述的主干特征提取规则的结构进行简化,去除XML中与技术信息检索无关的内容,进而获得数据模块的主干信息结构,之后对主干信息结构进行Dewey编码并存储;

对关键词划分成词串:采用双向最大匹配算法对关键词逐步进行分句、中文分词处理;

基于最紧致片段技术完成对主干信息结构的词串检索,并对检索结果进行相似度计算,过滤重复结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学船舶装备科技有限公司,未经哈尔滨工程大学船舶装备科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510394706.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top