[发明专利]一种基于词典与文法分析的多语种分词方法在审
申请号: | 201611001691.2 | 申请日: | 2016-11-14 |
公开(公告)号: | CN106528536A | 公开(公告)日: | 2017-03-22 |
发明(设计)人: | 王宇;徐晓燕;周渊;刘庆良;郑彩娟;黄成;王海平;周游;陈婷婷 | 申请(专利权)人: | 北京赛思信安技术股份有限公司;国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京永创新实专利事务所11121 | 代理人: | 赵文颖 |
地址: | 100125 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于词典与文法分析的多语种分词方法,可以实现中、日、韩、粤语等混合文本高效准确的分词处理,并且对于不同时段、不同专业的词可以实现灵活的词库扩展,有效更新词库信息,实现准确、高效的多语种语言文本分词;通过内嵌中日韩粤等语系子分词器、中文量子分词器和西方语系分词器,可以实现每类语种文本判断的准确分词;通过内置的语言片段编码识别机制字段对待分词文本片段进行切分,切分后的每种文本片段对应于一种语系,并使用相应的子分词器进行分词;通过文法分析可以实现西方屈折语的分词、中、日、韩、粤语的smart模式分词,可以处理含有阿拉伯数字信息的文本;同时,本发明还可以实现多种语言混合的文本分词,脱离了分词工具只能对单一语种、个别几个语种分词的局限性,保证文本分词的安全性、准确性、高效性、灵活性、普适性。通过本发明的提出的多语言分词,在增强海量数据文本分类、文本信息提取、自动摘要等文本分词领域具有广泛的应用前景。 | ||
搜索关键词: | 一种 基于 词典 文法 分析 语种 分词 方法 | ||
【主权项】:
一种基于词典与文法分析的多语种分词方法,包括以下几个步骤:步骤一:采用unicode编码来确定不同标点符号及空格的编码区间,构造分隔符集合;首先,将待分词文本以流的形式存入缓冲区,然后,启动字符与阿拉伯数字处理的分词器,使得该分词器接收字符流,用指针扫描字符,并记录词首的指针位置begin,移动指针,继续扫描下一字符,直到遇到分隔符,记录当前指针的位置end,得到第一个词的起始位置begin、以及词的长度end‑begin,依此继续扫描,直至将缓存区中所有的词的起始位置与词长都识别出来;最后得到所有的词元信息,即词的起始位置、词长、词所属类型;然后缓存下一批字符,完成分词功能,至此,完成了将屈折语文本分词的过程,并将分词结果存入词段队列;步骤二:采用基于词典匹配的方法,对词与词之间没有显著标志指示词边界的语言进行分词,词典包括内部词典以及外部扩展词典;词典的存储采用了前缀树数据结构,对应的数据结构除了根节点,任意一个子节点都包含两个数据项:nodeChar表示该节点对应的字符,nodeState表示从根节点到本节点是否是一个完整的词;首先,将待分词文本以流的形式读入缓冲区;然后,启动处理中、日、韩语的分词器,使得该分词器接收字符流,将其与词典中的词进行匹配,得到所有与词典匹配的词的词元信息,包括字符起始位置、词长、词所属类型,存储到词段队列,对于未匹配的词,则以单字词的形式输出;另外,通过扩展停用词词典,滤掉无保留意义的词;步骤三:当分词模式采用smart,需要采用文法分析方法解决词语歧义的问题,具体方法如下:(1)词典匹配得到词段队列;(2)找出歧义即词元路径有交叉的部分;(3)选出词段队列的候选集,即所有可能的组合;(4)根据词法分析,进行优先级判断排序,选出最佳分词队列,其中优先级由高到低排列顺序如下所示:有效文本长度越长,优先级越高;b、词元个数越少,优先级越高,单字词除外;c、词段路径跨度越大,优先级越高;d、词段队列的起始位置越靠后,,优先级越高;e、词长越平均,优先级越高f、词元位置权重越大,优先级越高;权重:其中pi是每一词元在词段队列中的序号,li是对应词元的词长;步骤五:采用unicode编码方法,过滤文本间的乱码;步骤六:采用文法分词,处理文本中存在着阿拉伯数字,判断连接符的前一字符与后一字符的字符类型是否均为阿拉伯数字,如果均为阿拉伯数字,不进行分次。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京赛思信安技术股份有限公司;国家计算机网络与信息安全管理中心,未经北京赛思信安技术股份有限公司;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611001691.2/,转载请声明来源钻瓜专利网。