[发明专利]一种基于模糊认知图的文档语义自动生成方法无效
申请号: | 201110093326.X | 申请日: | 2011-04-14 |
公开(公告)号: | CN102135955A | 公开(公告)日: | 2011-07-27 |
发明(设计)人: | 邬江兴;罗兴国;刘超;魏晓;曹伟;骆祥峰;斯雪明;雷咏梅;贾云杰 | 申请(专利权)人: | 上海红神信息技术有限公司;中国人民解放军信息工程大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 白毅明 |
地址: | 上海市闵行区联*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模糊 认知 文档 语义 自动 生成 方法 | ||
技术领域
本发明涉及一种文档语义自动生成方法,特别是涉及一种基于模糊认知图的文档语义自动生成方法。
背景技术
传统的基于关键词匹配的搜索引擎,通过对<关键词,文章,频率>这种集对的匹配来进行搜索。这种搜索方式的优点是简单快捷,查全率高。但是也正因为<关键词,文章,频率>这种集对向量过于简单,传统搜索引擎有着查准率偏低,无法反映文章语义知识等缺点。
基于文档语义的搜索具有较好的查准率,但是海量文档的语义自动生成还没有很好的解决方案。
发明内容
本发明所要解决的问题是,针对现有技术的不足,提出一种基于模糊认知图的文档语义自动生成方法,通过模糊认知图对文档的段落进行语义表示,基于模糊认知图的合并实现整个文档的语义表示。
本发明所采用的技术方案:
一种基于模糊认知图的文档语义自动生成方法,
首先,对文档进行预处理:包括文档分段、分句及分词处理;
其次,将各个具有原子语义的段落都转化为对应的原子认知图(E-FCM);
第三,将各个具有原子语义的段落原子认知图(E-FCM)组合成段落认知图(S-FCM);
第四,由同一篇文档的原子认知图(E-FCM)和段落认知图(S-FCM)组合成文档认知图(D-FCM),从而实现文档知识的表示。
所述的基于模糊认知图的文档语义自动生成方法,采取下述步骤将具有原子语义的段落转换为一个原子认知图:
1)用一个文本段落的标题或文本段落中具有单词数与关键词数之比最大的语句作为原子认知图的主题结点,即主题概念;
2)对段落内容进行预处理,根据分句和分词处理的结果,得到m个句子和n个不同的关键词,取前N个出现概率较大的关键词,得到原子认知图的N个概念;所述m,n和N为自然数;
3)对原子认知图中的N个概念,计算两两之间的联系权重;
计算公式为若概念Ci和Cj共现第k个句子中,则bk=1,否则bk=0;
4)计算原子认知图中的N个概念到主题概念的权重。
计算方法为:关键词Ci对主题概念的权重由推理公式经一次推理计算得到;第i个概念Ci在文本中的状态值用VCi=tanh(xi)计算;xi表示第i个关键词在文本出现的频率;f( )表示对所有关键词权重的归一化函数,本发明采用求算术和的归一化方法。
所述的基于模糊认知图的文档语义自动生成方法,在各个具有原子语义的段落都被转化为对应的原子认知图后,通过下述步骤把这些原子认知图进一步的归并成段落认知图:
1)把这些原子认知图先按照概念合并:概念间权值按概念相加再除以原子认知图的总数,得到一个具有多个主题概念的认知图;
2)删除那些只和一个主题概念有联系的概念,以及它们与其他概念和主题概念之间的联系;
3)对各个主题概念、概念之间的权值进行归一化处理。
所述的基于模糊认知图的文档语义自动生成方法,采用如下的步骤将若干段落认知图合并成文档认知图(D-FCM):
1)把这些段落认知图先按照概念合并:概念间权值按概念相加再除以段落认知图的总数,得到一个具有多个主题概念的认知图;
2)删除那些只和一个主题概念有联系的概念,以及它们与其他概念和主题概念之间的联系;
3)对各个主题概念、概念之间的权值重新进行归一化处理。
本发明的有益积极效果:
1、本发明基于模糊认知图的文档语义自动生成方法,通过模糊认知图对文档的段落进行语义表示,基于模糊认知图的合并实现整个文档的语义表示。与现有技术相比较,能提高文档语义表示的自动化程度,并能方便应用于Web环境下大规模网页文本的语义表示,进而提高web搜索的查准率。相对于其他的文档语义表示方法具有自动化程度较高的特点,适合于大规模文档的自动处理。
2、本发明基于模糊认知图的文档语义自动生成方法相对于关键词向量的文档表示方法,富含更多的语义信息,应用于搜索引擎中能够比基于关键词匹配的检索方法具有更高的查准率。
附图说明
图1是本发明基于模糊认知图的文档语义自动生成方法的流程图;
图2-图6提供了一个发明实例,包括了两个段落的认知图表示和段落认知图的合并过程,其中,图2为段落1的图形表示E-FCM1,其对应的权值矩阵表示为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海红神信息技术有限公司;中国人民解放军信息工程大学,未经上海红神信息技术有限公司;中国人民解放军信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110093326.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自动化分析专利范围的方法及专利分析系统
- 下一篇:通讯光缆剥线器