[发明专利]比较文本文件无效
申请号: | 200680025417.7 | 申请日: | 2006-05-12 |
公开(公告)号: | CN101238459A | 公开(公告)日: | 2008-08-06 |
发明(设计)人: | 罗伯特·弗朗西斯·威廉姆斯;海因茨·德雷埃尔 | 申请(专利权)人: | 柯廷技术大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06Q50/00 |
代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 陆弋;宋志强 |
地址: | 澳大利亚西*** | 国省代码: | 澳大利亚;AU |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 比较 文本文件 | ||
技术领域
本发明涉及利用自动化处理比较文本文件(text based documents),以获取对文件相似性的指示。本发明可应用于多个领域,这些领域包括但不限于文件搜索和自动文章评分(essay grading)。
背景技术
简而言之,因特网搜索引擎就指定词扫描网页(网页是文本文件),并返回结果,即与指定词匹配的网页。已知并无基于相似性概念而不使用指定词来查找文件的因特网搜索引擎。
自动文章评分更为复杂。本文之目的即在于根据文章内容与预期答案的比较而非根据词的特定集合来对文章(文本文件)进行评分。
发明内容
依据本发明的第一个方案,本文提供一种比较文本文件的方法,包括:
对第一文件的文本的每个单词进行词汇标准化以形成第一标准化表示;
根据第一标准化表示建立第一文件的向量表示;
对第二文件的文本的每个单词进行词汇标准化以形成第二标准化表示;
根据第二标准化表示建立第二文件的向量表示;
比较这些向量表示的共线程度,以生成第二文件相对第一文件的相似性的分数。
较佳地,词汇标准化将文件中的每个单词转换为辞典中定义的根本概念的表示。每个词用于在辞典中查找该词的根本概念。较佳地,每个根本单词被分配一个数字值。这样,在一些实施例中的标准化处理生成文件的数字表示。每个标准化的根本概念形成所述向量表示的一维。每个根本概念被计数。
每个标准化的根本概念的计数形成向量在向量表示的各维的长度。
较佳地,这些向量表示的共线程度比较通过确定这些向量之间的夹角(theta)的余弦来生成分数。
通常,cos(theta)根据这些向量的点积和这些向量的长度来计算。
在一些实施例中,文件中根本概念的数目被计数。在一个实施例中,每个非0计数的根本概念对各文件中概念的计数产生影响。特定根本概念可以从概念的计数中排除。较佳地,第二文件的概念的计数与第一文件的概念的计数进行比较,以对第二文件相对第一文件的相似性的分数产生影响。通常,非零计数的每个根本概念的影响为1。较佳地,所述比较为比率。
在较佳实施例中,所述第一文件为标准答案文章,所述第二文件为待记分的文章,所述分数为所述第二文章的分数。
依据本发明的第二个方面,提供一种比较文本文件的系统,包括:
对第一文件的文本的每个单词进行词汇标准化以形成第一标准化表示的工具;
根据第一标准化表示建立第一文件的向量表示的工具;
对第二文件的文本的每个单词进行词汇标准化以形成第二标准化表示的工具;
根据第二标准化表示建立第二文件的向量表示的工具;
对第一文件的文本进行词汇标准化的工具;
比较这些向量表示的共线程度以生成第二文件相对第一文件的相似性的分数的工具。
依据本发明的第三个方面,提供一种比较文本文件的方法,包括:
将第一文件的单词划分为名词短语和动词从句;
将第二文件的单词划分为名词短语和动词从句;
比较第一文件的划分与第二文件的划分,以生成第二文件相对第一文件的相似性的分数。
在一个实施例中,文件中的每个词被词汇标准化为根本概念。
较佳地,对文件划分的比较通过确定以下比率来执行:第二文件中一种或更多种类型的名词短语成分的数目与第一文件中相应类型的名词短语成分的数目之间的比率,以及第二文件中一种或更多种类型的动词从句成分的数目与第一文件中相应类型的动词从句的数目之间的比率,其中这些比率对分数有影响。
较佳地,所述名词短语成分的类型为:名词短语名词、名词短语形容词、名词短语前置词和名词短语连接词。较佳地,所述动词从句成分的类型为:动词从句动词、动词从句副词、动词从句助词、动词从句前置词和动词从句连接词。
在一个较佳实施例中,所述第一文件为标准答案文章,所述第二文件为待记分的文章,所述分数为第二文章的分数。
依据本发明的第四方面,提供一种比较文本文件的系统,包括:
将第一文件的单词划分为名词短语和动词从句的工具;
将第二文件的单词划分为名词短语和动词从句的工具;
比较第一文件的划分与第二文件的划分以生成第二文件相对第一文件的相似性的分数的工具。
依据本发明的第五个方面,提供一种比较文本文件的方法,包括:
对第一文件的文本的每个单词进行词汇标准化以形成第一标准化表示;
根据第一标准化表示确定第一文件中根本概念的数目;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于柯廷技术大学,未经柯廷技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680025417.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种替代塑料袋拎物的方法
- 下一篇:吹吸组合式橱具