[发明专利]一种语音浏览方法及浏览器有效
申请号: | 201110046896.3 | 申请日: | 2011-02-25 |
公开(公告)号: | CN102163213A | 公开(公告)日: | 2011-08-24 |
发明(设计)人: | 邓铸辉;陈启华;王向东;钱跃良;林守勋 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 浏览 方法 浏览器 | ||
技术领域
本发明涉及网络浏览器技术领域,具体地说,本发明涉及一种语音浏览方法及浏览器。
背景技术
浏览器是指一种获取网页内容的软件,而语音浏览器是在获取web页面供用户浏览的过程中使用语音技术(比如说,将网页的内容通过语音的方式提供给用户),从而满足那些不能通过视觉浏览网页的用户(如盲人)的浏览需求。
早期的语音浏览器主要是屏读软件(screen reader),其中比较有影响的包括:国外的JAWS,IBM Home Page Reader,国内的阳光读屏、永德读屏和晨光读屏等软件。这类软件可通过语音合成技术将屏幕上显示的网页文本内容读出,使盲人依靠听觉获取网页内容。屏读软件最大的问题在于,这些软件几乎不对网页做分析和处理,而是直接按照网页固有顺序读出所有网页内容。这样,当网页内容很多时,用户很难快速定位到感兴趣的内容。
针对屏读软件费时、低效的缺点,近年来,语音浏览器研究的热点逐渐转向对网页结构和内容的解析和重组,以期在更大的粒度上显示和操作网页内容。国内外许多研究者都开展了相关的研究,开发出了一批应用系统。其中最具代表性的是美国的HearSay项目和IBM日本公司的相关研究。
为解决网页内容太多造成的访问低效问题,HearSay系统将HTML网页内容分为较大的块(block),用户可以通过快捷键跳过网页块,从而较快地定位到感兴趣的信息。而且,当用户点击网页中的某个链接进入另一个网页时,系统会自动跳转到与链接文字语义最接近的块,从而直接朗读用户最可能感兴趣的内容。这一按照语义相关性跳转的特性是较为重要的创新,但只能用于链接跳转,无法用于首次进入网站首页时,而网站首页对用户来说却是必不可少且浏览最为困难的网页。另外,HearSay系统的分块算法比较初级,其分块效果琐碎且有一定的随意性,往往不符合网页视觉和结构的特点,并且只能支持向下跳过网页块的操作,并未把整个网页组织成块的集合,使用户可以直接在所有块间选择和跳转。
IBM日本公司的系统“Web content transcoding system”通过将网页分为若干个组(group)来减少网页中一次性读出的条目的个数。该系统将组作为网页的基本单位进行组织和显示,使得用户可操作的单位变大因而提高了交互效率。然而,为得到较好的分组效果,该系统需要采用动态匹配的方法对整个网站进行离线批处理,这种方法处理时间较长,无法满足用户的实时请求,返回给用户的网页有可能是已过期的旧网页(具体可参考文献:Takagi,H.and Asakawa,C.,″Web Content.Transcoding For VoiceOutput″,Technology And.Persons With Disabilities Conference,2002.4.)。
综上所述,当前迫切需要一种既便于用户以语音方式浏览各种网页,又够满足用户的实时请求的语音浏览方法和语音浏览器。
发明内容
本发明的目的是提供一种便于用户以语音方式浏览各种网页且处理时间短,能够满足用户的实时请求的语音浏览方法和语音浏览器。
为实现上述发明目的,本发明提供了一种语音浏览方法,包括:
网页信息提取步骤:对于用户请求的任一网页,首先对其进行网页分类,若判定该网页属于主题型网页,则对网页进行主内容抽取;若该网页为非主题型网页,则进行网页分块;
网页格式转换步骤:将HTML格式的网页自动转换为VOICEXML格式的页面;
语音推送步骤:基于voiceXML格式网页,向用户朗读网页内容。
其中,所述网页格式转换步骤中,对于主题型网页,所抽取的网页主内容设置为优先向用户朗读;对于非主题型网页,为用户设置快捷键以使用户能够在各网页块之间自由切换和选择;
其中,所述网页信息提取步骤中,网页分类的算法包括下列步骤:
11)对网页进行DOM树解析,计算每一个DOM结点的链接文字比;
12)对网页是否为主题型网页进行粗判断以将该网页判定为主题型网页、非主题型网页和网页类型待定的网页;
其中,所述粗判断包括:
当DOM树根结点的链接文字比小于预设的第一阈值时,判定该网页为主题型网页,网页分类算法结束;
当DOM树根结点的链接文字比大于预设的第二阈值时,判定该网页为非主题型网页,网页分类算法结束;
当DOM树根结点的链接文字在所述第一阈值和所述第二阈值之间时,该网页类型待定,转入步骤3);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110046896.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种组合梯子
- 下一篇:一种改进型回转拉紧锁