[发明专利]一种对文本序列进行分词的方法、装置和电子设备有效

申请号：	201711364208.1	申请日：	2017-12-18
公开（公告）号：	CN108038103B	公开（公告）日：	2021-08-10
发明（设计）人：	苏海波;刘钰;刘译璟;杨哲铭;杨中亮	申请（专利权）人：	沈阳智能大数据科技有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06N3/04
代理公司：	北京国昊天诚知识产权代理有限公司 11315	代理人：	李潇
地址：	110623 辽宁省沈***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本序列进行分词方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文本的分词方法、装置和电子设备，所述方法包括：确定与所述文本序列对应的概率矩阵，所述概率矩阵记录有所述文本序列中的每个字符与预设的每个标注字符相匹配的概率值，所述标注字符用于对所述文本序列进行分词；确定与所述概率矩阵对应的转移矩阵，所述转移矩阵记录了所述每个标注字符之间的转移概率；根据所述概率矩阵和转移矩阵，对所述文本序列进行分词。本发明可以避免在中文分词过程中，存在分词特征抽取受限以及领域适应性较差的问题。

技术领域

本发明涉及人工智能领域，尤其涉及一种对文本序列进行分词的方法、装置和电子设备。

背景技术

中文分词在自然语言处理中占据重要地位，是实体识别、文本分类、文本聚类、关键词提取、机器翻译、智能问答等自然语言任务处理的重要环节。但是，与英文中词与词之间仅有分隔符相比，由于中文语言的复杂性，造成了中文分词面临各种困难。

目前中文分词的方法常用的有基于规则的方法和基于传统机器学习的方法。基于规则的方法采用的是最大正/反向匹配，以及双向匹配的方法，构建基于句法-语义规则的分析系统，同时结合语法规则词典，达到分词的效果。但是由于中文句法的领域相关性，造成基于规则的方法面临不同领域语言出现适应性较差的问题。

基于传统机器学习的方法，大多采用CRF、HMM等方法进行分词。其中采用最多的是CRF，其主要思路是对汉字进行标注的训练，考虑词语之间的序列以及上下文的关系。但是这种方法受限于分词语料特征的选择和抽取。

发明内容

本发明实施例的目的是提供一种对文本序列进行分词的方法、装置和电子设备，以解决现有技术在中文分词过程中，存在分词特征抽取受限以及领域适应性较差的问题。

第一方面，提供了一种对文本序列进行分词的方法，该方法包括：

确定与所述文本序列对应的概率矩阵，所述概率矩阵记录有所述文本序列中的每个字符与预设的每个标注字符相匹配的概率值，所述标注字符用于对所述文本序列进行分词；

确定与所述概率矩阵对应的转移矩阵，所述转移矩阵记录了所述每个标注字符之间的转移概率；

根据所述概率矩阵和转移矩阵，对所述文本序列进行分词。