[发明专利]用于对未知词进行语义分类的系统和方法无效

申请号：	200910006527.4	申请日：	2009-02-04
公开（公告）号：	CN101794281A	公开（公告）日：	2010-08-04
发明（设计）人：	赵凯;胡长建;邱立坤	申请（专利权）人：	日电(中国)有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京东方亿思知识产权代理有限责任公司 11258	代理人：	宋鹤;南霆
地址：	100007 北京市东城区东四十***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于未知进行语义分类系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于对未知词进行语义分类的方法，包括：

针对字典中的每个词根A，收集包含该词根A的相似词集合{AD₁，AD₂，...AD_n}或{D₁A，D₂A，...D_nA}，其中所述词根A包含一个或多个字符，D_i(i＝1，2，...，n)包含一个或多个字符并且满足C(D₁)＝C(D₂)＝...＝C(D_n)＝c，其中C()表示语义类，c指示一特定语义类，n表示集合中相似词的数目，n≥2；

按照不同的语义类，对所收集的每个相似词集合{AD₁，AD₂，...AD_n}或{D₁A，D₂A，...D_nA}中的相似词进行分组，以使得每个群组中的相似词具有相同的语义类；

记录所含相似词数目最多的群组的语义类c_max；

输入一未知词w＝XY，其中X和Y各自包含一个或多个字符；

从所收集的各个相似词集合中选择其词根A满足A＝X或A＝Y的相似词集合；以及

对于所选的相似词集合，若满足A＝X且C(Y)＝c或者A＝Y且C(X)＝c，则将该未知词w分类到针对该词根A所记录的语义类c_max。

2.如权利要求1所述的方法，还包括：

计算所记录的语义类c_max所包含的相似词数目与整个相似词集合中的相似词数目之比；

若计算出的所述比率大于等于预定的第一阈值，则保留所记录的语义类c_max，并且

若计算出的所述比率小于所述第一阈值，则删除所记录的语义类c_max，并且不产生任何分类结果输出。

3.如权利要求2所述的方法，还包括：

如果所记录的语义类c_max所包含的相似词数目大于等于预定的第二阈值，则保留所记录的语义类c_max；并且

如果所记录的语义类c_max所包含的相似词数目小于预定的第二阈值，则删除所记录的语义类c_max，并且不产生任何分类结果输出。