[发明专利]基于语义扩展的WEB页面归类方法和系统有效
申请号: | 201310236697.8 | 申请日: | 2013-06-14 |
公开(公告)号: | CN103294820B | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 徐立新;付丽萍;颜小林;李军 | 申请(专利权)人: | 广东电网有限责任公司电力科学研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王学强 |
地址: | 510080 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 扩展 web 页面 归类 方法 系统 | ||
技术领域
本发明涉及WEB页面数据处理技术,特别是涉及一种基于语义扩展的WEB页面归类方法,以及一种基于语义扩展的WEB页面归类系统。
背景技术
随着互联网的普及和信息技术的发展,越来越希望通过互联网来对信息进行挖掘利用,但目前对于数据的归类多是基于关键字的对比,方法比较简单,在WEB信息自动归类或查找的过程中基于关键字匹配的方案不能很好的满足要求,在精确度和应用的灵活性方面效果较差。
发明内容
基于此,本发明提供一种基于语义扩展的WEB页面归类方法和系统,能有效提高WEB页面信息归类的正确率和灵活性。
一种基于语义扩展的WEB页面归类方法,包括如下步骤:
提取WEB页面的关键词;
将所述WEB页面的关键词进行语义扩展,得到关键词组合;
根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;
将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;
将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树。
一种基于语义扩展的WEB页面归类系统,包括:
提取模块,用于提取WEB页面的关键词;
扩展模块,用于将所述WEB页面的关键词进行语义扩展,得到关键词组合;
确定模块,用于根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;
匹配模块,用于将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;
归类模块,用于将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树。
上述基于语义扩展的WEB页面归类方法和系统,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;将WEB页面的关键词与语义词库的类别树进行比较,从而确定相似类别树,根据关键词组合确定权重最高的节点并存储,得到更新后的相似类别树,采用语义信息,对抽取的数据进行归类分析,实现了基于语义的数据归类,实现了WEB页面数据的高效归类,数据处理更加准确可靠。
附图说明
图1为本发明基于语义扩展的WEB页面归类方法在一实施例中的流程示意图。
图2为图1中关键词组合和相似类别树的示意图。
图3为本发明基于语义扩展的WEB页面归类系统在一实施例中的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细说明,但本发明的实施方式不限于此。
如图1所示,是本发明一种基于语义扩展的WEB页面归类方法在一较佳实施例中的流程示意图,包括如下步骤:
S11、提取WEB页面的关键词;
S12、将所述WEB页面的关键词进行语义扩展,得到关键词组合;
在本实施例中,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;
S13、根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;
语义词库能帮助机器理解用户的检索意图,为用户提供更精确、更相关的知识和信息;其中的类别树是一种分层的语法结构,其中用词和词的组合定义的概念彼此之间存在着语义关系;语义词库可根据现有领域知识建立;语义词库中包含了各个类别树,每个类别树侧重于一个较小的主题,对应于一个较小的领域应用;如“电力新技术”下包含了多个节点,比如节点“智能电网”,预设权重为5;节点“调度自动化”,预设权重为4;在所述WEB页面提取到关键词后,可根据预设的语义词库确定对应的类别树。
S14、将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司电力科学研究院,未经广东电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310236697.8/2.html,转载请声明来源钻瓜专利网。