[发明专利]能自动抓取和播报新闻的方法及其机器人装置在审
申请号: | 201710041170.8 | 申请日: | 2017-01-20 |
公开(公告)号: | CN106933944A | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 纪江霖;吴勇谋 | 申请(专利权)人: | 深圳前海勇艺达机器人有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京金蓄专利代理有限公司11544 | 代理人: | 孙巍 |
地址: | 518061 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 抓取 播报 新闻 方法 及其 机器人 装置 | ||
技术领域
本发明涉及信息检索技术领域,尤其涉及一种能自动抓取和播报新闻的方法及其机器人装置。
背景技术
在互联网的时代,传统媒体新闻在逐渐退出历史舞台,淡出大众的视野,成为一种小众的读物。在互联网发达的今天,忙碌的年轻人更喜欢通过电子媒体的方式获取最新的资讯和信息。例如今日头条,Facebook,腾讯,网易等等公司的电子新闻都是目前大家喜欢阅读的新闻平台。
鉴于传统的媒体新闻无法做到互联网新闻的高时效性,新鲜性,和针对不同的用户群体的精准推荐性。并且基于现有的新闻平台新闻信息互为补充,因此急需一种技术可以对新闻平台中的新闻进行整合后提供给用户。
发明内容
本发明目的是提供一种能自动抓取和播报新闻的方法及其机器人装置,可以通过网络机器人爬虫爬取网页的方式,采集不同类别的新闻,播报给用户。
本发明解决技术问题采用如下技术方案:一种能自动抓取和播报新闻的方法,其特征在于,至少包括以下步骤:
获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;
采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;
对提取的正文内容进行网页去重;
对去重后的网页内容进行中文分词;
对分词后的网页进行新闻文本分类;
语音播报分类后的新闻。
其中,使用开源工具nutch进行相关网页抓取。
其中,使用开源工具BoilerPipe进行网页去噪。
其中,采用开源算法Simhash进行网页去重。
其中,使用朴素贝叶斯分类算法进行新闻文本分类。
本发明还提供一种能自动抓取和播报新闻的机器人装置,至少包括:
网页抓取单元,用于获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;
网页去噪单元,用于采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;
网页去重单元,用于对提取的正文内容进行网页去重;
中文分词单元,用于对去重后的网页内容进行中文分词;
文本分类单元,用于对分词后的网页进行新闻文本分类;
语音播报单元,用于语音播报分类后的新闻
本发明具有如下有益效果:采用本发明的技术方案对不同新闻平台中的新闻进行整合并播报给用户,提升了用户新闻浏览的友好感。
附图说明
图1为本发明的能自动抓取和播报新闻的方法的流程简图;
图2为本发明的能自动抓取和播报新闻的机器人装置的结构框图。
具体实施方式
下面结合实施例及附图对本发明的技术方案作进一步阐述。
本发明提供一种能自动抓取和播报新闻的方法,至少包括以下步骤:
获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;
采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;
对提取的正文内容进行网页去重;
对去重后的网页内容进行中文分词;
对分词后的网页进行新闻文本分类;
语音播报分类后的新闻。
下面结合具体的实施例对本发明方法进一步说明,本发明的技术是通过从各大门户网站(今日头条,腾讯,网易等新闻网站)采集新闻网页,通过网页过滤(去除噪声部分,去除广告部分,提取正文),网页去重,中文分词,文本分类,使用语音的方式进行语音播报,播报给用户关于不同类别的新闻内容。
结合图1所示的本发明的方法流程简图以及以下步骤对本方法进行说明:
1、采集新闻网页,如sohu,腾讯,网易等网站,指定初始种子链接和抓取深度,如指定当天的热门新闻,使用开源工具nutch进行相关网页抓取;
2、使用正则表达式抽取导航栏链接,使用开源工具BoilerPipe进行网页去噪的处理部分,提取出正文内容;基于正则表达式属于现有技术的内容,因此不再赘述;
3、抽取出网页的正文后,大量的新闻存在重复冗余,在本发明的实施例中可以使用Google的开源算法simhash进行网页去重;
4、中文分词,在本发明的实施例中可以使用开源的java版的斯坦福大学分词器进行分词,当然也可以采用现有的其他方式进行分词,分词的目的是为了抽取出关键词(名词,形容词),去除冗余的词,为下一步文本分类做准备;
5、在本发明的实施例中,使用朴素贝叶斯分类算法进行文本分类,把新闻分为科技,体育,娱乐,财经新闻;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海勇艺达机器人有限公司,未经深圳前海勇艺达机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710041170.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于记录时间差的朋友推荐方法
- 下一篇:城市生态安全空间格局模型构建方法