[发明专利]新词发现系统及方法在审
申请号: | 201310205571.4 | 申请日: | 2013-05-29 |
公开(公告)号: | CN104216878A | 公开(公告)日: | 2014-12-17 |
发明(设计)人: | 王玉平;陈运文;姜迅 | 申请(专利权)人: | 酷盛(天津)科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海金盛协力知识产权代理有限公司 31242 | 代理人: | 解文霞 |
地址: | 300467 天津市滨海新区天津生态*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新词 发现 系统 方法 | ||
技术领域
本发明关于一种新词发现系统及方法,特别是涉及一种用于内容推荐的新词发现系统及方法。
背景技术
伴随着计算机的飞速发展,互联网行业中越来越多的应用和文本操作有关,最常见的应用就是搜索,还有很多具体应用比如说视频推荐、商品推荐、语音合成、语音识别等,这些应用都有个共同点就是都和文本有关,需要理解文本的内容,目前,基本的处理步骤是,获取文本之后对文本进行分词;然后对分好的词语进行词性标注,最后再做其他处理比如说提取关键词,再应用这些关键词进行后续的处理。这里最基础的处理步骤就是分词,如果分词结果不好,将会对后续的处理带来巨大的影响,所以,分词是重中之重,而任何分词算法都对训练数据或者词典中没有出现的词很难处理好,这就导致系统经过一段时间的使用之后,随着越来越多的新词出现,处理的效果将会越变越差,为了解决这个问题,新词发现算法应运而生,一般是从海量互联网数据中,通过新词发现算法来提取其中的新词,然而,这样做会有几个问题,一是海量互联网数据也很难覆盖所有的新词,二是从众多互联网数据中提取新词的计算代价很大,三是新词发现算法都会带来一定的噪声数据,导致提取的新词中有一些词是不规则词,这也会对分词效果造成比较大的影响,除非加入人工纠错,否则自动提取的新词有比较大的问题。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种用于内容推荐的新词发现系统及方法,通过将外部网站抓取的新词、用户搜索词条提取的用户搜索新词和其他途径获取的新词结合起来来获取最终的新词,避免了传统新词发现算法所导致的沉重的运算负担,不仅可以获得时下最新的新词,还可以有效的保持互联网应用的时效性。
为达上述及其它目的,本发明提出一种新词发现系统,至少包括:
外站抓取模组,用于从当前网站的外部网站抓取新词并汇总,获得总的外站新词;
搜索新词模组,统计用户搜索过的词条,并提取频率最高的前N个词条作为用户搜索新词;以及
去重模组,将该外站抓取模组抓取的总的外站新词和该搜索新词模组提取的用户搜索新词汇总并去重,得到最终的最新新词。
进一步地,该系统还包括一其他新词来源模块,以用于获取其他途径获得的新词作为其他来源新词。
进一步地,该其他新词来源模块提取数据库中频率最高的M个词条做为其他来源新词。
进一步地,该去重模组将该外站抓取模组抓取的总的外站新词、该搜索新词模组提取的用户搜索新词以及该其他新词来源模块提取的其他来源新词汇总并去重,得到最终的最新新词。
进一步地,该系统还包括一首次去重模组,以将该外站抓取模组从各外部网站抓取的新词去重后再进行汇总为总的外站新词。
为达到上述及其他目的,本发明还提供一种新词发现方法,包括如下步骤:
从当前网站的外部网站抓取新词并汇总,获得总的外站新词;
统计用户搜索过的词条,并提取频率最高的前N个词条作为用户搜索新词;
将抓取的总的外站新词和提取的用户搜索新词汇总并去重,得到最终的最新新词。
进一步地,于该将抓取的总的外站新词和提取的用户搜索新词汇总并去重步骤之前,还包括获取其他途径获得的新词作为其他来源新词的步骤。
进一步地,提取数据库中频率最高的M个词条做为其他来源新词。
进一步地,将抓取的总的外站新词、提取的用户搜索新词汇及其他来源新词汇总并去重,得到最终的最新新词。
进一步地,将从各外部网站抓取的新词去重后再进行汇总为总的外站新词。
与现有技术相比,本发明一种新词发现系统及方法,通过将外部网站抓取的外站新词、根据用户搜索的词条提取的用户搜索新词和其他来源新词结合起来的方法来获取最终的最新新词,不仅可以避免新词发现算法所造成的沉重的运算负担,还可以获得时下最新的新词,有效地保持互联网应用的时效性。
附图说明
图1为本发明一种新词发现系统的系统架构图;
图2为本发明一种新词发现方法的步骤流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于酷盛(天津)科技有限公司,未经酷盛(天津)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310205571.4/2.html,转载请声明来源钻瓜专利网。