[发明专利]一种文本处理方法及终端在审

申请号：	201710574188.4	申请日：	2017-07-13
公开（公告）号：	CN109255106A	公开（公告）日：	2019-01-22
发明（设计）人：	刘辉	申请（专利权）人：	TCL集团股份有限公司
主分类号：	G06F17/22	分类号：	G06F17/22;G06F17/27
代理公司：	深圳中一专利商标事务所 44237	代理人：	官建红
地址：	516006 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本序列同音词集合拼音序列文本处理文本计算机技术领域隐马尔可夫模型终端自定义词典文本分割应用场景语义完备性转换消歧耗时应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种文本处理方法及终端，涉及计算机技术领域。其中方法包括：将待处理文本分割成文本序列，得到文本序列集合；分别将所述文本序列集合中的文本序列转换成拼音序列；采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列，生成新的文本序列集合；根据所述新的文本序列集合，生成新的文本。本发明实施例可以有效的解决文本中存在错误的同音词的问题，改善了现有的基于人工自定义词典处理文本中同音词的方法存在的耗时、耗力以及词典完备性的问题，扩大了同音词语义消歧的应用场景和应用范围。

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本处理方法及终端。

背景技术

随着互联网络的普及以及信息技术的快速发展，网络中的文本数据呈井喷式发展，如何从海量的文本数据中挖掘出有价值的信息是当前研究的热点之一。网络文本数据不同于传统的文本数据，由于网络用户表达方式的随意性以及用户文化水平参差不齐等特点，导致网络文本数据中充斥着大量的同音词问题，即用户习惯于用一个错误的词语来表达与其同音的词，例如：用户想输入词语“文化”结果往往会因为粗心输入成“文华”，考虑到绝大部分的同音词之间的语义差别很大，若不对网络文本中出现的这些错误的同音词进行语义消歧处理，往往会导致后续针对该文本的所有工作均徒劳。因此，针对网络文本数据存在的这些问题，在数据预处理阶段采用相应的语义消歧技术是非常必要和有价值的，它是文本数据分析及挖掘的基础。

现有技术中一般采用建立同音和同义词词典来对网络文本中出现的错误的同音词进行语义消歧处理，这种方式的不足之处在于自定义词典需要耗费大量人工时间进行构建，同时词典的完备性严重制约了它的实际应用。

发明内容

有鉴于此，本发明实施例提供一种文本处理方法及终端，旨在解决上述自定义词典需要耗费大量人工时间进行构建，同时词典的完备性严重制约了它的实际应用的问题。

本发明实施例的第一方面提供了一种文本处理方法，包括：

将待处理文本分割成文本序列，得到文本序列集合；

分别将所述文本序列集合中的文本序列转换成拼音序列；

采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列，生成新的文本序列集合；

根据所述新的文本序列集合，生成新的文本。

本发明实施例的第二方面提供了一种终端，包括：

文本分割单元，用于将待处理文本分割成文本序列，得到文本序列集合；

拼音序列获取单元，用于分别将所述文本序列集合中的文本序列转换成拼音序列；

文本序列获取单元，用于采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列，生成新的文本序列集合；