[发明专利]一种基于词频的数字出版物词汇抽取方法有效
申请号: | 201710946489.5 | 申请日: | 2017-10-11 |
公开(公告)号: | CN107679037B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 孙继兰 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/151;G06F16/33 |
代理公司: | 北京北新智诚知识产权代理有限公司 11100 | 代理人: | 满靖 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词频 数字 出版物 词汇 抽取 方法 | ||
1.一种基于词频的数字出版物词汇抽取方法,其特征在于,它包括步骤:
1)判断待出版的数字出版物的语言以及其属于初级读物、中级读物、高级读物中的哪种阅读等级读物,根据判断结果调取对应的高频词典、中频词典和低频词典,其中:按照章节排序的数字出版物为涉及一种语言且以空格分隔词汇的语言文本;
2)将数字出版物的原始文档转换成XML格式文档,通过对XML格式文档进行排版来获得页码标记,形成带有章节、段落和页码标记的XML格式文件,并将XML格式文件保存为数字出版物的文档副本;
3)对文档副本进行词汇抽取,生成高频词汇表、中频词汇表、低频词汇表和新增词汇表:
3-1)基于高频词典,抽取文档副本中的高频词汇:
对高频词典中记录的各高频词汇,按词频由大到小的顺序逐个遍历文档副本进行查找,其中:在查找一个高频词汇时,当在文档副本中第一次查找到时,此高频词汇被记录到高频词汇表中并在文档副本中删除,但当此高频词汇再次在文档副本中查找到时,则不再被记录到高频词汇表中而在文档副本中直接删除;高频词典中的高频词汇按照词频大小降序排序;
3-2)基于中频词典,抽取文档副本中的中频词汇:
对中频词典中记录的各中频词汇,按词频由大到小的顺序逐个遍历文档副本进行查找,其中:在查找一个中频词汇时,当在文档副本的一个章节中第一次查找到时,此中频词汇被记录到中频词汇表中,标记此中频词汇所在章节号、所在页码号并累加词频,以及在文档副本中删除,当此中频词汇再次在同一章节中或其他章节中查找到时,则不再被记录到中频词汇表中,但累加词频,记录新出现的章节号和页码号,以及在文档副本中删除;中频词典中的中频词汇按照词频大小降序排序;
3-3)对文档副本剩余词汇逐个进行抽取,直到遍历并抽取完所有词汇:
若待抽取的词汇在低频词典中查找到,则此词汇被认为是低频词汇,记录到低频词汇表中,标记此低频词汇所在章节号和所在页码号并累加词频,以及在文档副本中删除;反之,此词汇被记录到新增词汇表中,标记此词汇所在章节号和所在页码号并累加词频,以及添加新增标记,并在文档副本中删除;
4)词汇抽取完成,数字出版物等待出版;
其中:如果数字出版物改版,则通过对XML格式文档重新排版来获得新的页码标记,从而对中频词汇表、低频词汇表中各词汇的所在页码号进行更新。
2.如权利要求1所述的基于词频的数字出版物词汇抽取方法,其特征在于:
所述高频词汇表的属性包括词汇原型、发音、释义和附加信息;
所述中频词汇表的属性包括词汇原型、发音、释义、词汇所在章节号、词汇所在页码号、词频和附加信息;
所述低频词汇表的属性包括词汇原型、发音、释义、词汇所在章节号、词汇所在页码号、词频和附加信息;
所述新增词汇表的属性包括词汇原型、发音、释义、词汇所在章节号、词汇所在页码号、词频、附加信息和新增标记。
3.如权利要求1所述的基于词频的数字出版物词汇抽取方法,其特征在于:
所述低频词典中的低频词汇按照设定规则排序,其中:当文档语言为英语时,所述低频词典按词汇首个英语字母顺序排序;当文档语言为汉语时,所述低频词典按汉字编码规则排序。
4.如权利要求1所述的基于词频的数字出版物词汇抽取方法,其特征在于:
若所述新增词汇表中的词汇属于拼写错误,则经过改正后补入所述高、中或低频词汇表中。
5.如权利要求1至4中任一项所述的基于词频的数字出版物词汇抽取方法,其特征在于:
当所述数字出版物中还存在少量其它语言的词汇时,此词汇视为新增词汇处理。
6.如权利要求1至4中任一项所述的基于词频的数字出版物词汇抽取方法,其特征在于:
若所述数字出版物具有两种或两种以上语言时,每种语言所对应的内容各自按照所述步骤2)和3)来处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710946489.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:卫星钟的超快钟差预报模型的预先选择方法
- 下一篇:一种皮肤组织切片的制作方法