[发明专利]用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法和用于该方法的装置有效
申请号: | 201180059052.0 | 申请日: | 2011-12-07 |
公开(公告)号: | CN103250149B | 公开(公告)日: | 2015-11-25 |
发明(设计)人: | 朴根兑;朴镛吉;崔炯仁;魏南淑;李斗锡;孙正教;金行文;李东学 | 申请(专利权)人: | SK电信有限公司 |
主分类号: | G06F17/20 | 分类号: | G06F17/20;G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 吕俊刚;刘久亮 |
地址: | 韩国*** | 国省代码: | 韩国;KR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 数学 语句 提取 语义 距离 并且 按照 分类 方法 装置 | ||
技术领域
本公开在一些方面涉及用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法、用于该方法的装置和计算机可读记录介质。更具体地,本公开涉及一种用于当搜索所输入的数学语句以给出存储的数学内容之间的相似性时、从由自然语言单词和标准化数学公式中的至少一种组成的数学语句提取语义距离并且按照语义距离对数学语句分类的方法、用于该方法的装置和计算机可读记录介质。
背景技术
这一部分中的说明仅仅提供与本公开有关的背景信息而可能不构成现有技术。
人类的单词很丰富并且复杂,并且包括大量的具有复杂的语法构造和语境意义的词汇,但是机器或者软件应用通常需要根据特定格式或者规则来输入数据。在此,输入的自然语言单词可以用于几乎全部与人类交互的软件应用。通常,自然语言处理方法包括将自然单词划分为标记(Token)并且将所划分的标记映射到由软件应用提供的一条或者多条运算信息或者动作,其中每一个软件应用被设定为具有一系列独特动作。也就是说,自然语言处理方法适用于基于软件开发者对于用于解析输入的代码的编写,将所输入的自然单词映射到适合于每一个应用的适当动作。
然而,自然语言处理方法可能既不能识别数学公式,也不能通过算出用于搜索数学语句的查询与所存储的数学语句之间的相似程度来提供搜索结果。
发明内容
技术问题
本公开的一个方面适用于自动提取由自然单词和标准化数学公式中的至少一种组成的数学语句中包含的语义信息。
技术方案
本公开的实施方式提供一种用于从数学语句提取语义距离并且按照语义距离对数学语句分类的装置,所述装置包括:用户查询输入单元,所述用户查询输入单元用于从用户接收查询;查询解析单元,所述查询解析单元用于提取所输入的用户查询中包括的至少一个关键词;索引信息单元,所述索引信息单元用于对包括语义信息的自然语言标记和数学公式标记中的一个或多个编索引;语义距离提取单元,所述语义距离提取单元用于通过测量所提取的关键词和被编索引的语义信息之间的语义距离来获取相似性。
一种用于从数学语句提取语义距离并且按照语义距离对数学语句分类的装置还可包括:信息输入单元,所述信息输入单元用于接收包括自然单词和数学公式中的至少一种的复合语句;语义解析单元,所述语义解析单元用于从所述复合语句分别划分自然单词和数学公式,并且用于解析构成所划分的自然单词和数学公式的每一条构造信息来生成语义信息,从而生成自然语言标记和数学公式标记。
所述语义解析单元可将所述复合语句转换为简单语句的逻辑组合以生成语义信息。
所述语义解析单元可通过对自然单词标记化来生成自然语言标记,通过基于自然语言标记过滤停用词来生成过滤了停用词的数据,通过对过滤了停用词的数据执行重复去除过滤来生成过滤了重复的数据,并且将过滤了重复的数据与具有所获取的预定义含义的运算信息进行匹配以提取匹配作为语义信息。
所述语义解析单元可将数学公式转换为树形,对树形的数学公式执行遍历处理,对经遍历处理的数学公式执行标记化为数学公式标记,以提取数学公式标记作为语义信息。
语义信息可包括复合语句的运算信息,所述运算信息是通过参照一规则并且通过将自然语言标记和数学公式标记与所述规则进行比较而提取的,所述规则具有自然单词和数学公式中的至少一种的组合,相应的运算信息组合到所述组合。
所述运算信息可包括自然语言标记的结构含义、自然语言标记的方向性和被自然语言标记影响的点。
所述方向性可表示所述运算信息是与自然语言标记的一个或多个前面的数学公式相关联、与自然语言标记的一个或多个随后的数学公式相关联、还是独立。
语义信息可包括通过将自然语言标记的对象数学公式与数学公式标记中的一个相匹配而生成的数学对象。
所述查询解析单元可从用户查询分别划分自然单词和数学公式,解析构成所划分的自然单词和数学公式的每一条构造信息来生成语义信息,并且提取包括自然语言标记和数学公式标记的关键词。
所述语义距离可被生成为与对于所提取的关键词的语义元素和被编索引的语义信息的语义元素共同的共同语义元素的数量成正比的值。
语义元素可具有针对每一个语义元素设定的权重。
所述语义距离可与等同地存在于所提取的关键词和被编索引的语义信息中的语义元素的权重的和成反比,可与所提取的关键词和被编索引的语义信息中包括的总计语义元素的权重的和成正比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于SK电信有限公司,未经SK电信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180059052.0/2.html,转载请声明来源钻瓜专利网。