[发明专利]藏文期刊论文检索系统在审
申请号: | 201911252316.9 | 申请日: | 2019-12-09 |
公开(公告)号: | CN111159333A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 陈晓红 | 申请(专利权)人: | 芜湖乐哈哈信息科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/338 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 孙永智 |
地址: | 241224 安徽省芜*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 藏文 期刊论文 检索系统 | ||
本发明公开了藏文期刊论文检索系统,涉及藏文检索技术领域。本发明包括查询功能模块、文档存储库以及显示模块;查询功能模块包括检索单元以及相似度对比单元;检索单元用户接收检索关键词;检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序;显示模块将排序好的检索文档按相似度从高到低显示。本发明通过检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序,提高查全率和查准率,同时对查询效率。
技术领域
本发明属于藏文检索技术领域,特别是涉及一种藏文期刊论文检索系统。
背景技术
向量空间模型根据特征频率进行检索的典型算法,此模型主要通过将定的文本看过相互独立的特征项(t1,t2,t3,…tn)构成,将特征项看成一个n维坐标系中的坐标轴,对于每一个特征项ti都根据其在文档中的重要程度赋予一定的权值wi(w1,w2,w3…wn)对应为n维坐标系中的坐标值,特征权值的计算框架一般被称为Tf*IDF框架,可以用如下(1)词频因子的变体计算公式来计算:
这种方法被称为增强型规范化Tf,公式的a是调节因子,Tf是这个单词的实际词频数目,Max(Tf)是文档中所有单词中出现次数最多的那个单词对应的词频数目。这样处理的目的主要是对长文档的一种抑制。而IDF主要考虑的是特征单词之间的相对重要性,是文档集合中范围的一种全局因子,并非文档本身的特征,其计算公式如下(2)所示:
其中的N代表文档集合中文档总数,而nk代表特证词k的文档频率,IDF反映的是某个特证词在整个文档集合中的分布情况。Tf*IDF框架就是结合了上述的词频因子和逆文档频率因子的计算框架,一般是将两者相乘作为特征权值,特征权值越大,则越可能是好的指示词,其计算公式如下(3)所示:
Weightword=Tf×IDF (3)
向量空间算法虽简单有效,并被各种领域广泛采用,但是没有考虑各个特征项在文档中出现的位置。
本发明提供一种藏文期刊论文检索系统,通过检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序,提高查全率和查准率,同时对查询效率。
发明内容
本发明的目的在于提供藏文期刊论文检索系统,通过检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序,提高查全率和查准率,同时对查询效率。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为藏文期刊论文检索系统,包括:查询功能模块、文档存储库以及显示模块;所述查询功能模块包括检索单元以及相似度对比单元;
所述检索单元用户接收检索关键词;所述检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序;所述显示模块将排序好的检索文档按相似度从高到低显示;
所述改进向量空间模型算法具体包括如下:
A00:将文档Di按位置分为若干文本段Sit;
A01:根据位置词频权重计算方法计算文本段Sit的词项权重;
A02:计算索引项Tk在查询时Q中的权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于芜湖乐哈哈信息科技有限公司,未经芜湖乐哈哈信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911252316.9/2.html,转载请声明来源钻瓜专利网。