[发明专利]一种用于检索系统的数学公式索引创建方法与系统有效
申请号: | 201911034594.7 | 申请日: | 2019-10-29 |
公开(公告)号: | CN110795526B | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 蒋东辰;付双;许博;刘俊杰;欧琳琳 | 申请(专利权)人: | 北京林业大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 邓治平;顾炜 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 检索系统 数学公式 索引 创建 方法 系统 | ||
本发明提出一种用于检索系统的数学公式索引创建方法与系统,其能够通过公式解析、公式树节点合并、公式树节点重排、叶子节点符号替换、公式树字符串索引创建等几个步骤,实现对Latex数学公式的快速索引创建,解决了由于公式书写习惯差异、基本运算规律使用而导致的索引创建不唯一问题,能够为数学公式的精确检索提供准确、有效的倒排索引。该发明在计算机检索系统中对于数学知识检索、自动推理等方面具有重要的应用价值,提高了检索系统的检索效率。
技术领域
本发明涉及信息检索、数学公式解析处理等相关技术领域,特别涉及数学公式的解析、标准化、索引创建和检索方法和系统。
背景技术
随着互联网的发展,网络信息资源的日益丰富,搜索引擎在网络信息资源获取中的作用也日益重要。搜索引擎通过网页信息爬取、文本处理、索引创建等方式,建立关键词与目标文本的索引目录。这样,人们就可通过关键词检索,快速、准确的获得所需的相关信息文本资源。
然而,网络上除了大量由自然语言描述的各种文本外,还有许多专业性的结构化文本信息,如数学知识、物理规律等。这些信息对学生、研究人员和专业人士都十分重要。但通用搜索引擎通过分词构建倒排索引的方法对这种结构化文本信息的处理并不完全适用。这是因为数学知识、物理规律除了包含与普通文本相同的自然语言描述之外,还包含大量结构化的公式。在实际描述中,由于书写习惯、教育背景的差异,这些结构化公式的对比无法通过直接的字符串比对实现,变量符号选择的差异就会导致同一公式具有完全不同的字符串表示。因此,数学公式的索引创建往往需要更为复杂的结构化分析,如何有效地创建数学公式的索引也成为高效公式检索的重要保证。
目前,数学公式检索和索引创建的常用方法大致可分为以下几类:
基于线性字符串索引的公式检索方法。该类方法在索引建立步骤,首先将数学公式做线性化处理,将所有非字母的数学符号对应到英文字母表中一个或一些字符,然后按照一定的规范序列化目标数学公式。该方法避免了公式的结构化嵌套对比,这类方法的查询检索效率高,适合公式的查找精确。但其无法区分由于表述风格差异而导致索引结果不一致,也不支持在交换律、结合律等常见转换规律下等价公式的有效查找。
基于语法结构的公式检索方法。该类方法将数学公式完整解析,然后通过划分子域或建立等价置换树来索引公式;在查找时,检索函数通过递归比较各个子域或分支树的相似度来实现对具体公式的检索。这类方法能够实现公式的精确检索,但由于需要递归匹配目标公式与查询公式,其无法利用通用搜索引擎提供的倒排索引实现快速查找,实际公式检索性能较低。
基于子公式比对的公式检索方法。这类方法认为,复杂的公式都是通过简单公式归纳、变形得到的。因此,只要找到最够多相同的子公式就可以判别整体公式的相似性。这类方法将待处理公式解析分拆成具有基本结构的多个表达式(有时还会存储这些表达式在原公式中的深度信息),然后以这些表达式为索引建立原公式的倒排索引。在检索时,公式检索系统也会对目标公式分拆,再以各表达式分别检索查询,最后通过合并获得最终结果。这类方法并不去匹配严格的结构信息,而是通过局部的相似性来做整体的检测。由于这类方法是基于相似度的近似检索,其并不能保证结果的准确性。
发明内容
本发明技术解决问题:针对现有数学公式检索、索引创建技术上的不足,提供一种基于公式解析的数学公式索引创建方法与系统,其能够通过公式解析、公式树节点合并、公式树节点重排、叶子节点符号替换、公式树字符串索引创建等几个步骤,实现对Latex数学公式的快速索引创建,解决了由于公式书写习惯差异、基本运算规律使用(如交换律、结合律)而导致的索引创建不一致问题,能够为数学公式的精确检索提供准确、有效的倒排索引。该发明在计算机检索系统中对于数学知识检索、自动推理等方面具有重要的应用价值,提高了检索系统的检索效率。
本发明中提出的一种用于检索系统的数学公式索引创建的方法,所述方法包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京林业大学,未经北京林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911034594.7/2.html,转载请声明来源钻瓜专利网。