[发明专利]比较文本文件无效
申请号: | 200680025417.7 | 申请日: | 2006-05-12 |
公开(公告)号: | CN101238459A | 公开(公告)日: | 2008-08-06 |
发明(设计)人: | 罗伯特·弗朗西斯·威廉姆斯;海因茨·德雷埃尔 | 申请(专利权)人: | 柯廷技术大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06Q50/00 |
代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 陆弋;宋志强 |
地址: | 澳大利亚西*** | 国省代码: | 澳大利亚;AU |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 比较 文本文件 | ||
1、一种比较文本文件的方法,包括:
对第一文件的文本的每个单词进行词汇标准化以形成第一标准化表示;
根据第一标准化表示建立第一文件的向量表示;
对第二文件的文本的每个单词进行词汇标准化以形成第二标准化表示;
根据第二标准化表示建立第二文件的向量表示;
比较这些向量表示的共线程度,以生成第二文件相对第一文件的相似性的分数。
2、如权利要求1所述的方法,其中词汇标准化将各文件中的每个单词转换为辞典中定义的根本概念的表示。
3、如权利要求2所述的方法,其中每个单词用于在辞典中查找该单词的根本概念。
4、如权利要求2或3所述的方法,其中每个根本单词被分配一个数字值。
5、如权利要求1至4中任一项所述的方法,其中标准化处理产生文件的数字表示。
6、如权利要求2至4中任一项所述的方法,其中每个标准化的根本概念形成向量表示的一维。
7、如权利要求6所述的方法,其中每个标准化的根本概念出现的次数被计数。
8、如权利要求7所述的方法,其中每个标准化的根本概念的计数形成向量在向量表示的各维的长度。
9、如权利要求1至8中任一项所述的方法,其中这些向量表示的共线程度比较通过确定这些向量之间的夹角(theta)的余弦来生成分数。
10、如权利要求9所述的方法,其中cos(theta)根据这些向量的点积和这些向量的长度来计算。
11、如权利要求2至4及6至8所述的方法,其中每个文件中根本概念的数目被计数。
12、如权利要求11所述的方法,其中第二文件的概念的计数与第一文件的概念的计数进行比较,以对第二文件相对第一文件的相似性的分数产生影响。
13、如权利要求12所述的方法,其中非零计数的每个根本概念的影响为1。
14、如权利要求12或13所述的方法,其中所述比较为比率。
15、如权利要求1至14中任一项所述的方法,其中所述第一文件为标准答案文章,所述第二文件为待被评分的文章,所述分数为第二文章的分数。
16、如权利要求1至15中任一项所述的方法,进一步包括:
将第一文件的单词划分为名词短语和动词从句;
将第二文件的单词划分为名词短语和动词从句;
比较第一文件的划分与第二文件的划分,以对第二文件相对第一文件的相似性的分数产生影响。
17、一种比较文本文件的系统,包括:
对第一文件的文本的每个单词进行词汇标准化以形成第一标准化表示的工具;
根据第一标准化表示建立第一文件的向量表示的工具;
对第二文件的文本的每个单词进行词汇标准化以形成第二标准化表示的工具;
根据第二标准化表示建立第二文件的向量表示的工具;
对第一文件的文本进行词汇标准化的工具;
比较这些向量表示的共线程度以生成第二文件相对第一文件的相似性的分数的工具。
18、如权利要求17所述的系统,进一步包括一工具,该工具查找辞典以根据各文件中的每个单词查出根本概念,并将所述根本概念提供给对各个文件中的每个单词进行词汇标准化的各个工具,其中所述各个工具将每个单词转换为相应根本概念的表示。
19、如权利要求18所述的系统,其中用于建立向量表示的各个工具根据每个标准化的根本概念形成向量表示的一维。
20、如权利要求19所述的系统,其中用于建立向量表示的各个工具对每个标准化的根本概念的出现次数进行计数,所述计数形成向量在向量表示的各个维的长度。
21、如权利要求17至20中任一项所述的系统,其中用于比较这些向量表示的共线程度的工具通过确定这些向量之间的夹角(theta)的余弦来生成分数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于柯廷技术大学,未经柯廷技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680025417.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种替代塑料袋拎物的方法
- 下一篇:吹吸组合式橱具