[发明专利]基于大规模术语语料库对译稿自动碎片化分类的方法有效
申请号: | 201210591759.2 | 申请日: | 2012-12-31 |
公开(公告)号: | CN103106245A | 公开(公告)日: | 2013-05-15 |
发明(设计)人: | 江潮 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖开发区光谷软*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于大规模术语语料库对译稿自动碎片化分类的方法,包括:对译稿进行分词处理,去除停用词,获得其关键词集合,提取译稿每段的各个关键词,建立每个段落与其包含的各个关键词的对应关系;将所述译稿的各个关键词逐个在术语语料库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个段所归属的行业类别属性;根据所述对应关系,确定每个段包含相同的最多的行业类别属性;将最多的行业类别属性对该段分类。由于译稿的词语数要远小于术语库的词语数;且术语库具备按字母顺序查找的功能,在其中进行关键词匹配不需要采用模式匹配算法,可以极大的减少查询时间。缩短对译稿碎片化的时间,提高碎片化效率。 | ||
搜索关键词: | 基于 大规模 术语 语料库 译稿 自动 碎片 化分 方法 | ||
【主权项】:
一种基于大规模术语语料库对译稿自动碎片化分类的方法,其特征在于,包括:提取译稿每段的各个关键词,建立每个段落与其包含的各个关键词的对应关系;将所述译稿的各个关键词逐个在术语语料库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个段所归属的行业类别属性;根据所述对应关系,确定每个段包含相同的最多的行业类别属性;将最多的行业类别属性对该段分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210591759.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种基因组序列的指纹特征曲线的构造方法
- 下一篇:吸湿快干和抗菌的毛领面料