[发明专利]一种基于词典与文法分析的多语种分词方法在审

专利信息
申请号: 201611001691.2 申请日: 2016-11-14
公开(公告)号: CN106528536A 公开(公告)日: 2017-03-22
发明(设计)人: 王宇;徐晓燕;周渊;刘庆良;郑彩娟;黄成;王海平;周游;陈婷婷 申请(专利权)人: 北京赛思信安技术股份有限公司;国家计算机网络与信息安全管理中心
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京永创新实专利事务所11121 代理人: 赵文颖
地址: 100125 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种基于词典与文法分析的多语种分词方法,可以实现中、日、韩、粤语等混合文本高效准确的分词处理,并且对于不同时段、不同专业的词可以实现灵活的词库扩展,有效更新词库信息,实现准确、高效的多语种语言文本分词;通过内嵌中日韩粤等语系子分词器、中文量子分词器和西方语系分词器,可以实现每类语种文本判断的准确分词;通过内置的语言片段编码识别机制字段对待分词文本片段进行切分,切分后的每种文本片段对应于一种语系,并使用相应的子分词器进行分词;通过文法分析可以实现西方屈折语的分词、中、日、韩、粤语的smart模式分词,可以处理含有阿拉伯数字信息的文本;同时,本发明还可以实现多种语言混合的文本分词,脱离了分词工具只能对单一语种、个别几个语种分词的局限性,保证文本分词的安全性、准确性、高效性、灵活性、普适性。通过本发明的提出的多语言分词,在增强海量数据文本分类、文本信息提取、自动摘要等文本分词领域具有广泛的应用前景。
搜索关键词: 一种 基于 词典 文法 分析 语种 分词 方法
【主权项】:
一种基于词典与文法分析的多语种分词方法,包括以下几个步骤:步骤一:采用unicode编码来确定不同标点符号及空格的编码区间,构造分隔符集合;首先,将待分词文本以流的形式存入缓冲区,然后,启动字符与阿拉伯数字处理的分词器,使得该分词器接收字符流,用指针扫描字符,并记录词首的指针位置begin,移动指针,继续扫描下一字符,直到遇到分隔符,记录当前指针的位置end,得到第一个词的起始位置begin、以及词的长度end‑begin,依此继续扫描,直至将缓存区中所有的词的起始位置与词长都识别出来;最后得到所有的词元信息,即词的起始位置、词长、词所属类型;然后缓存下一批字符,完成分词功能,至此,完成了将屈折语文本分词的过程,并将分词结果存入词段队列;步骤二:采用基于词典匹配的方法,对词与词之间没有显著标志指示词边界的语言进行分词,词典包括内部词典以及外部扩展词典;词典的存储采用了前缀树数据结构,对应的数据结构除了根节点,任意一个子节点都包含两个数据项:nodeChar表示该节点对应的字符,nodeState表示从根节点到本节点是否是一个完整的词;首先,将待分词文本以流的形式读入缓冲区;然后,启动处理中、日、韩语的分词器,使得该分词器接收字符流,将其与词典中的词进行匹配,得到所有与词典匹配的词的词元信息,包括字符起始位置、词长、词所属类型,存储到词段队列,对于未匹配的词,则以单字词的形式输出;另外,通过扩展停用词词典,滤掉无保留意义的词;步骤三:当分词模式采用smart,需要采用文法分析方法解决词语歧义的问题,具体方法如下:(1)词典匹配得到词段队列;(2)找出歧义即词元路径有交叉的部分;(3)选出词段队列的候选集,即所有可能的组合;(4)根据词法分析,进行优先级判断排序,选出最佳分词队列,其中优先级由高到低排列顺序如下所示:有效文本长度越长,优先级越高;b、词元个数越少,优先级越高,单字词除外;c、词段路径跨度越大,优先级越高;d、词段队列的起始位置越靠后,,优先级越高;e、词长越平均,优先级越高f、词元位置权重越大,优先级越高;权重:其中pi是每一词元在词段队列中的序号,li是对应词元的词长;步骤五:采用unicode编码方法,过滤文本间的乱码;步骤六:采用文法分词,处理文本中存在着阿拉伯数字,判断连接符的前一字符与后一字符的字符类型是否均为阿拉伯数字,如果均为阿拉伯数字,不进行分次。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京赛思信安技术股份有限公司;国家计算机网络与信息安全管理中心,未经北京赛思信安技术股份有限公司;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611001691.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top