[发明专利]一种基于词频的数字出版物词汇抽取方法有效
申请号: | 201710946489.5 | 申请日: | 2017-10-11 |
公开(公告)号: | CN107679037B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 孙继兰 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/151;G06F16/33 |
代理公司: | 北京北新智诚知识产权代理有限公司 11100 | 代理人: | 满靖 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词频 数字 出版物 词汇 抽取 方法 | ||
本发明公开了一种基于词频的数字出版物词汇抽取方法,其减少了按章节、页码抽取数字出版物中词汇所花费的计算量,便于各词汇在重新排版后实现快速无误地页码定位,提高了出版工作效率。此方法包括步骤:判断待出版的数字出版物的语言以及其阅读等级,根据判断结果调取对应的高频词典、中频词典和低频词典;将数字出版物的原始文档转换成XML格式文档,通过排版XML格式文档获得页码标记,形成带有章节、段落和页码标记的XML格式文件,并保存为文档副本;对文档副本进行词汇抽取,生成高频词汇表、中频词汇表、低频词汇表和新增词汇表:词汇抽取完成,数字出版物等待出版。
技术领域
本发明涉及一种基于词频的数字出版物词汇抽取方法,属于数字出版技术领域。
背景技术
人类已经进入数字出版时代,数字出版平台和电子读物自身的数字化特点,使利用各种现代技术为读者提供包括娱乐和辅助学习功能的新型有效服务成为可能。多媒体技术与人工智能研究领域成果的引用,如自然语言处理等,不仅给数字化出版带来信息载体、读物来源和阅读方式的改变,而且会使人们在阅读过程中的学习方式、学习效果等发生很多新的变化。
词汇是语言学习和阅读的基础,在超前阅读和外文阅读时,很多时候由于词汇所产生的阅读挫折阻碍或减缓了读者进入熟练阅读的阶段,从而导致最终语言磨蚀严重,浪费了大量智力资源。而对于普通的熟练阅读,也会遇到某些出现概率极低的词汇。
面对如何解决和缓解阅读中的生词问题,提高语言学习和阅读质量,目前已经提出在数字出版中对数字出版物提供词汇抽取服务的理念,其是指在数字出版过程中,把书籍原稿文档或各种其他文档(如影视或游戏对白)中读者可能不认识的生词提前抽取出来,给出解释,生成按词频分段,能按照章节、页码及其他分割单位进行查询筛选的词汇表放到出版平台上供下载,或形成适于移动终端的APP打包下载。
由此可见,词汇抽取服务具有非常重要的实用意义,但是,截止目前为止,国内外还没有出现具体提供这种服务的技术方案。这其中的原因之一是由于数字出版提供词汇抽取服务底层需要各类优质的电子词典资源,这是出版社自身难以承担的,然而如今云计算和自然语言处理的不断发展,可以使这一服务成为可能。在词汇提取服务中,一个较困难的问题是词汇的按页查询以随机返回原语境。有的词汇在一本书中会出现几千次,有的词汇可能仅出现1次,但记录每个词汇的页码不仅繁琐,而且没有规律可循。同时,一个文档只有在排版后才存在页码信息,因此在改版或变更文件格式时都需要重新确定每个词汇的页码,工作量十分巨大。因此,如何共享和利用已存在的信息来减少页码定位及改版时的页码重新定位所产生的计算量具有十分现实的意义。
此外,数字出版物未来会基于XML技术实现“一次创建多次使用”的永久性传播方式,即把数字出版物的文档转换成XML格式文档,并在XML文档中进行标识工作,形成全媒体出版,以及实现个性化、片段化、碎片化出版,因此,如何在各种媒体和个性化出版中使词汇抽取变得简单、自动化,也是今后需要考虑的问题。
发明内容
本发明的目的在于提供一种基于词频的数字出版物词汇抽取方法,其减少了按章节、页码抽取数字出版物中词汇所花费的计算量,并便于各词汇在重新排版后实现快速无误地页码定位,提高了出版工作效率。
为了实现上述目的,本发明采用了以下技术方案:
一种基于词频的数字出版物词汇抽取方法,其特征在于,它包括步骤:
1)判断待出版的数字出版物的语言以及其属于初级读物、中级读物、高级读物中的哪种阅读等级读物,根据判断结果调取对应的高频词典、中频词典和低频词典,其中:按照章节排序的数字出版物为涉及一种语言且以空格分隔词汇的语言文本;
2)将数字出版物的原始文档转换成XML格式文档,通过对XML格式文档进行排版来获得页码标记,形成带有章节、段落和页码标记的XML格式文件,并将XML格式文件保存为数字出版物的文档副本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710946489.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:卫星钟的超快钟差预报模型的预先选择方法
- 下一篇:一种皮肤组织切片的制作方法