[发明专利]专业英语词库的建构方法及系统无效
申请号: | 201210121118.0 | 申请日: | 2012-04-24 |
公开(公告)号: | CN103377217A | 公开(公告)日: | 2013-10-30 |
发明(设计)人: | 苏公雨 | 申请(专利权)人: | 苏州引角信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 215000 江苏省苏州市苏州工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 专业 英语 词库 建构 方法 系统 | ||
1.一种专业英语词库的建构方法,其特征在于,该方法包括如下步骤:
S1、抓取电子行业网站上的网页信息;
S2、提取所述网页信息中的文本信息;
S3、对所述文本信息进行分词,以获取若干词条;
S4、判断所述词条是否为本行业的专业词条,若是,将该词条存储于专业英语词库中;若否,对该词条进行剔除。
2.根据权利要求1所述的专业英语词库的建构方法,其特征在于,在所述S3步骤后,还包括:
查询专业英语词库,判断所述专业英语词库中是否已存在该词条,若是,剔除该词条;若否,保存该词条。
3.根据权利要求1所述的专业英语词库的建构方法,其特征在于,在所述S3步骤后,还包括:
统计所述词条在所述网站上的使用频率,并根据所述使用频率对所述词条进行排序。
4.根据权利要求3所述的专业英语词库的建构方法,其特征在于,在所述S4步骤后,还包括:
根据所述使用频率,对存储于所述专业英语词库中的词条进行排序标记。
5.一种专业英语词库的建构系统,其特征在于,该系统包括:
网页抓取单元、用于抓取电子行业网站上的网页信息;
文本提取单元、用于提取所述网页信息中的文本信息;
分词单元、用于对所述文本信息进行分词,以获取若干词条;
筛选单元、用于判断所述词条是否为本行业的专业词条,若是,将该词条存储于专业英语词库中;若否,对该词条进行剔除。
6.根据权利要求5所述的专业英语词库的建构系统,其特征在于,该系统还用于:查询专业英语词库,判断所述专业英语词库中是否已存在该词条,若是,剔除该词条;若否,保存该词条。
7.根据权利要求5所述的专业英语词库的建构系统,其特征在于,该系统还用于:
统计所述词条在所述网站上的使用频率,并根据所述使用频率对所述词条进行排序。
8.根据权利要求7所述的专业英语词库的建构系统,其特征在于,该系统还用于:
根据所述使用频率,对存储于所述专业英语词库中的词条进行排序标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州引角信息科技有限公司,未经苏州引角信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210121118.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:半自动进板机
- 下一篇:一种防冲击箕斗装矿装置