[发明专利]一种文本分析方法及装置有效
申请号: | 201710642370.9 | 申请日: | 2017-07-31 |
公开(公告)号: | CN107391489B | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 向彪;张家兴;吴庚水;黄诗南;温祖杰 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/30;G10L15/26 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 周莉娜 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分析 方法 装置 | ||
1.一种文本分析方法,包括:
获取待分析文本;
判断所述待分析文本是否符合预设的文本规则;
若是,则对所述待分析文本进行分析;
否则,根据所述待分析文本中每个字符的先验概率和后验概率,修改所述待分析文本,并对修改后的待分析文本进行分析;
所述根据所述待分析文本中每个字符的先验概率和后验概率,修改所述待分析文本,具体包括:从所述待分析文本中选择M个字符,分别作为M个目标文本,M为大于0的自然数;针对所述待分析文本中的每个字符,将该字符分别与各目标文本组合,得到各目标文本分别对应的备选文本;判断是否存在指定数量的备选文本满足指定条件;若是,则针对每个备选文本,根据该备选文本中每个字符的先验概率和后验概率,计算该备选文本的规范性概率,将规范性概率与第一特定值的差值的绝对值最小的备选文本作为修改后的待分析文本;否则,在各备选文本中,选择M个备选文本,重新作为目标文本,并得到重新确定的各目标文本对应的备选文本,直至存在指定数量的备选文本满足指定条件。
2.根据权利要求1所述的方法,获取待分析文本,具体包括:
获取用户的语音;
对所述语音进行识别,得到所述语音对应的待分析文本。
3.根据权利要求1所述的方法,预先根据若干符合所述文本规则的样本文本,统计得到每个字符的先验概率和后验概率,针对每个样本文本,根据该样本文本中每个字符的先验概率和后验概率,计算该样本文本的规范性概率,根据各样本文本的规范性概率,确定概率区间;
判断所述待分析文本是否符合预设的文本规则,具体包括:
根据所述待分析文本中每个字符的先验概率和后验概率,计算所述待分析文本的规范性概率;
若所述待分析文本的规范性概率在所述概率区间内,则确定所述待分析文本满足预设的文本规则;
若所述待分析文本的规范性概率不在所述概率区间内,则确定所述待分析文本不满足预设的文本规则。
4.根据权利要求3所述的方法,使用如下公式计算规范性概率:
P(z)=P(w1)×P(w2|w1)×P(w3|w1w2)×......×P(wn|wn-2wn-1);
其中,P(z)是文本z的规范性概率,w1~wn是文本z中的第1个字符至第n个字符,P(w1)是w1的先验概率,P(w2|w1)是w2相对于w1的后验概率,P(w3|w1w2)是w3相对于w1和w2的后验概率,P(wn|wn-2wn-1)是wn相对于wn-2和wn-1的后验概率。
5.根据权利要求1所述的方法,从所述待分析文本中选择M个字符,具体包括:
计算每个字符的先验概率与所述第一特定值的差值的绝对值;
按绝对值由小到大的顺序,依次从所述待分析文本中选择M个字符;
从各备选文本中,选择M个备选文本,具体包括:
针对每个备选文本,根据该备选文本中每个字符的先验概率和后验概率,计算该备选文本的规范性概率;
计算该备选文本的规范性概率与所述第一特定值的差值的绝对值;
按绝对值由小到大的顺序,依次从各备选文本中选择M个备选文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710642370.9/1.html,转载请声明来源钻瓜专利网。