[发明专利]一种基于模糊认知图的文档语义自动生成方法无效
申请号: | 201110093326.X | 申请日: | 2011-04-14 |
公开(公告)号: | CN102135955A | 公开(公告)日: | 2011-07-27 |
发明(设计)人: | 邬江兴;罗兴国;刘超;魏晓;曹伟;骆祥峰;斯雪明;雷咏梅;贾云杰 | 申请(专利权)人: | 上海红神信息技术有限公司;中国人民解放军信息工程大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 白毅明 |
地址: | 上海市闵行区联*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模糊 认知 文档 语义 自动 生成 方法 | ||
1.一种基于模糊认知图的文档语义自动生成方法,其特征是:
首先,对文档进行预处理:包括文档分段、分句及分词处理;
其次,将各个具有原子语义的段落都转化为对应的原子认知图;
第三,将各个具有原子语义的段落原子认知图组合成段落认知图;
第四,由同一篇文档的原子认知图和段落认知图组合成文档认知图,从而实现文档知识的表示。
2.根据权利要求1所述的基于模糊认知图的文档语义自动生成方法,采取下述步骤将具有原子语义的段落转换为一个原子认知图:
1)用一个文本段落的标题或文本段落中具有单词数与关键词数之比最大的语句作为原子认知图的主题结点,即主题概念;
2)对段落内容进行预处理,根据分句和分词处理的结果,得到m个句子和n个不同的关键词,取前N个出现概率较大的关键词,得到原子认知图的N个概念;所述m,n和N为自然数;
3)对原子认知图中的N个概念,计算两两之间的联系权重;
计算公式为若概念Ci和Cj共现第k个句子中,则bk=1,否则bk=0;
4)计算原子认知图中的N个概念到主题概念的权重。
3.根据权利要求2所述的基于模糊认知图的文档语义自动生成方法,其特征是,采用求算术和的归一化方法计算原子认知图中的N个概念到主题概念的权重:关键词Ci对主题概念的权重由推理公式经一次推理计算得到;第i个概念Ci在文本中的状态值用计算;xi表示第i个关键词在文本出现的频率;f()表示对所有关键词权重的归一化函数。
4.根据权利要求1、2或3所述的基于模糊认知图的文档语义自动生成方法,其特征是,在各个具有原子语义的段落都被转化为对应的原子认知图后,通过下述步骤把这些原子认知图进一步的归并成段落认知图:
1)把这些原子认知图先按照概念合并:概念间权值按概念相加再除以原子认知图的总数,得到一个具有多个主题概念的认知图;
2)删除那些只和一个主题概念有联系的概念,以及它们与其他概念和主题概念之间的联系;
3)对各个主题概念、概念之间的权值进行归一化处理。
5.根据权利要求4所述的基于模糊认知图的文档语义自动生成方法,其特征是,采用如下的步骤将若干段落认知图合并成文档认知图:
1)把这些段落认知图先按照概念合并:概念间权值按概念相加再除以段落认知图的总数,得到一个具有多个主题概念的认知图;
2)删除那些只和一个主题概念有联系的概念,以及它们与其他概念和主题概念之间的联系;
3)对各个主题概念、概念之间的权值重新进行归一化处理。
6.根据权利要求1、2或3所述的基于模糊认知图的文档语义自动生成方法,其特征是,采用如下的步骤将若干段落认知图合并成文档认知图:
1)把这些段落认知图先按照概念合并:概念间权值按概念相加再除以段落认知图的总数,得到一个具有多个主题概念的认知图;
2)删除那些只和一个主题概念有联系的概念,以及它们与其他概念和主题概念之间的联系;
3)对各个主题概念、概念之间的权值重新进行归一化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海红神信息技术有限公司;中国人民解放军信息工程大学,未经上海红神信息技术有限公司;中国人民解放军信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110093326.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:自动化分析专利范围的方法及专利分析系统
- 下一篇:通讯光缆剥线器