[发明专利]一种基于概率模型的短文本相似度计算方法有效
申请号: | 201910094429.4 | 申请日: | 2019-01-30 |
公开(公告)号: | CN109858028B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 李民;瞿晨非;黄元欣 | 申请(专利权)人: | 神思电子技术股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/211;G06F40/216;G06F40/253;G06F40/289;G06F40/247 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 赵玉凤 |
地址: | 250000 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开一种基于概率模型的短文本相似度计算方法,致力解决小样本条件下短文本相似度计算问题;相较于词嵌入模型,概率模型对样本数量以及质量要求不高,在实际生产实践中具有更好的实用性和适用性;相较于一般的概率模型,引入弱增量式设计降低概率模型的计算效复杂度,提高模型计算效率;相较于传统的向量空间模型,引入权重系数b用来控制文档长度对文本相似度的影响;引入权重系数k |
||
搜索关键词: | 一种 基于 概率 模型 文本 相似 计算方法 | ||
【主权项】:
1.一种基于概率模型的短文本相似度计算方法,其特征在于:包括以下步骤:S01)、输入模组获取训练数据集或者测试样本,生成规范化文本;S02)、自然语言处理模组对规范化文本进行整理分析,完成业务的结构化、切片化以及多维度定义,生成结构化文本;S03)、概率计算模组对结构化文本进行训练和预测,训练过程完成训练集词语映射文档,以及每个词语对每个文档的权重计算,预测过程是当用户输入查询语句时计算与其余训练集每个问题的相关性得分,基于概率模型的训练过程为:S31)、根据结构化文本构建训练词语集合WordList;S32)、遍历计算WordList中每个词语wordi(1≤i≤n)对问题的权重,得到词语对文档权重集合WordIDF,S33)、遍历训练集合文档列表DocList,计算每个文档相对长度,首先计算每个文档的平均长度Avgl,然后计算文档平均长度与所有文档平均长度的比值,即文档的相对长度Ratl,得到文档相对长度集合DocLength,其中代表文档di的总长度,代表文档di句子的个数,N为训练集文档总数;S34)、基于BM25算法计算词语wordi和文档dj的相关性得分,相关性公式为b、k1、k2为调节因子,fi为词语wordi在文档dj中的出现频率;为文档dj的相对长度;qfi为词语wordi在查询文档中出现的频率,遍历WordList和DocList得到每个词语与每个文档的相关度集合WordDocCoef;S35)、输出结构化训练结果到初始化模组,包括b、k1、k2初始值、词语对文档权重集合WordIDF、文档相对长度集合DocLength以及每个词语与每个文档的相关度集合WordDocCoef;基于概率模型对用户查询进行预测的过程为:自然语言处理模组对用户查询语句进行结构化处理生成词语列表wordi(1≤i≤n),得到训练集中所有问题与每个wordi相关性得分后权重求和,从而得到查询问句与训练集中每个问题的相关性得分,公式为:其中wordi为查询问句Q的词语,n为查询问句中词语的个数;S04)、初始化模组管理结构化训练数据,一方面在进行预测分析初始阶段输出结构化训练数据到概率计算模组并完成初始化,另一方面可根据短文本相似度结果在初始化模组更新b、k1、k2的初始值,优化概率模型;S05)、相似度分析模组对概率计算模组输出的相似度列表进行分析,为概率模型优化提供建议。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于神思电子技术股份有限公司,未经神思电子技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910094429.4/,转载请声明来源钻瓜专利网。