[发明专利]一种文本处理方法及终端在审
申请号: | 201710574188.4 | 申请日: | 2017-07-13 |
公开(公告)号: | CN109255106A | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 刘辉 | 申请(专利权)人: | TCL集团股份有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 官建红 |
地址: | 516006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本序列 同音词 集合 拼音序列 文本处理 文本 计算机技术领域 隐马尔可夫模型 终端 自定义词典 文本分割 应用场景 语义 完备性 转换 消歧 耗时 应用 | ||
1.一种文本处理方法,其特征在于,包括:
将待处理文本分割成文本序列,得到文本序列集合;
分别将所述文本序列集合中的文本序列转换成拼音序列;
采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列,生成新的文本序列集合;
根据所述新的文本序列集合,生成新的文本。
2.根据权利要求1所述的文本处理方法,其特征在于,所述将待处理文本分割成文本序列,得到文本序列集合之前还包括:
通过预设的文本语料和拼音词典训练得到所述隐马尔可夫模型。
3.如权利要求2所述的文本处理方法,其特征在于,所述通过预设的文件语料和拼音词典训练得到所述隐马尔可夫模型包括:
确定所述隐马尔可夫模型的可观测状态O和隐含状态S,所述可观测状态O为所述文本语料中所有拼音的集合,所述隐含状态S为所述文本语料中所有词或词语组成的集合;
将所述预设的文本语料按照特定的标点符号分割成一段段的文本序列T,组成文本序列集合D;
循环遍历所述文本序列集合D是否为空;
若不为空,则逐条取出所述文本序列集合D中的文本序列T进行下一步处理;
对所述文本序列T进行分词操作,形成文本分词词语集合U;
遍历所述文本分词词语集合U是否为空;
若不为空,则依次读取所述文本分词词语集合U中的词I;
判断所述词I是否为所述文本序列中的第一个词;
若是第一个词,则将所述词I添加至首词集合R中;
若不是第一个词,则将所述词I与所述词I在所述文本序列中的前一个词K组成词组对(I,K),并将所述词组对(I,K)添加至词语集合N;
统计所述词I在所述首词集合R中出现的次数和在所述文本语料中出现的次数,根据统计结果计算得出所述词I出现在所述文本序列T的起始位置处的概率,得到所述隐马尔可夫的初始状态概率矩阵F;
统计所述词组对(I,K)和所述词I在所述文本语料中出现的次数,根据统计结果计算得出,词I出现在词K后的概率,得到所述隐马尔可夫模型的隐含状态转移概率矩阵M;
通过拼音词典获取字典中每一个拼音对应的词,以组成“词—拼音”的关系矩阵,得到所述隐马尔可夫模型中的所述观测状态转移概率矩阵C。
4.如权利要求1所述的文本处理方法,其特征在于,采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列包括:
采用维特比Viterbi算法根据所述隐马尔可夫模型分别求解出所述拼音序列所对应的最优隐含状态序列,所述最优隐含状态序列即为所述拼音序列所对应的新的文本序列。
5.一种终端,其特征在于,包括:
文本分割单元,用于将待处理文本分割成文本序列,得到文本序列集合;
拼音序列获取单元,用于分别将所述文本序列集合中的文本序列转换成拼音序列;
文本序列获取单元,用于采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列,生成新的文本序列集合;
文本生成单元,用于根据所述新的文本序列集合,生成新的文本。
6.根据权利要求5所述的终端,其特征在于,还包括:
模型训练单元,用于通过预设的文本语料和拼音词典训练得到所述隐马尔可夫模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于TCL集团股份有限公司,未经TCL集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710574188.4/1.html,转载请声明来源钻瓜专利网。