[发明专利]一种文本分析方法及装置有效

申请号：	201710642370.9	申请日：	2017-07-31
公开（公告）号：	CN107391489B	公开（公告）日：	2020-09-25
发明（设计）人：	向彪;张家兴;吴庚水;黄诗南;温祖杰	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/30;G10L15/26
代理公司：	北京晋德允升知识产权代理有限公司 11623	代理人：	周莉娜
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分析方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本分析方法，包括：

获取待分析文本；

判断所述待分析文本是否符合预设的文本规则；

若是，则对所述待分析文本进行分析；

否则，根据所述待分析文本中每个字符的先验概率和后验概率，修改所述待分析文本，并对修改后的待分析文本进行分析；

所述根据所述待分析文本中每个字符的先验概率和后验概率，修改所述待分析文本，具体包括：从所述待分析文本中选择M个字符，分别作为M个目标文本，M为大于0的自然数；针对所述待分析文本中的每个字符，将该字符分别与各目标文本组合，得到各目标文本分别对应的备选文本；判断是否存在指定数量的备选文本满足指定条件；若是，则针对每个备选文本，根据该备选文本中每个字符的先验概率和后验概率，计算该备选文本的规范性概率，将规范性概率与第一特定值的差值的绝对值最小的备选文本作为修改后的待分析文本；否则，在各备选文本中，选择M个备选文本，重新作为目标文本，并得到重新确定的各目标文本对应的备选文本，直至存在指定数量的备选文本满足指定条件。

2.根据权利要求1所述的方法，获取待分析文本，具体包括：

获取用户的语音；

对所述语音进行识别，得到所述语音对应的待分析文本。

3.根据权利要求1所述的方法，预先根据若干符合所述文本规则的样本文本，统计得到每个字符的先验概率和后验概率，针对每个样本文本，根据该样本文本中每个字符的先验概率和后验概率，计算该样本文本的规范性概率，根据各样本文本的规范性概率，确定概率区间；

判断所述待分析文本是否符合预设的文本规则，具体包括：

根据所述待分析文本中每个字符的先验概率和后验概率，计算所述待分析文本的规范性概率；

若所述待分析文本的规范性概率在所述概率区间内，则确定所述待分析文本满足预设的文本规则；

若所述待分析文本的规范性概率不在所述概率区间内，则确定所述待分析文本不满足预设的文本规则。

4.根据权利要求3所述的方法，使用如下公式计算规范性概率：

P(z)＝P(w₁)×P(w₂|w₁)×P(w₃|w₁w₂)×......×P(w_n|w_n-2w_n-1)；

其中，P(z)是文本z的规范性概率，w₁～w_n是文本z中的第1个字符至第n个字符，P(w₁)是w₁的先验概率，P(w₂|w₁)是w₂相对于w₁的后验概率，P(w₃|w₁w₂)是w₃相对于w₁和w₂的后验概率，P(w_n|w_n-2w_n-1)是w_n相对于w_n-2和w_n-1的后验概率。