[发明专利]用于人工智能文本分析的双词典模型的初始化方法及设备有效
申请号: | 202110667864.9 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113269271B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 邓柯;徐嘉泽 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/242;G06F40/295;G06F40/44 |
代理公司: | 深圳市鼎言知识产权代理有限公司 44311 | 代理人: | 曾柳燕;王娟 |
地址: | 100084 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 人工智能 文本 分析 词典 模型 初始化 方法 设备 | ||
1.一种用于人工智能文本分析的双词典模型的初始化方法,其特征在于,所述方法包括:
获取目标文本;
构建所述目标文本的双词典模型,所述双词典模型包括初始词语词典与初始超模式词典及
初始参数体系(γ,θw|c);
其中,对所述初始词语词典的构建包括:获取所述目标文本中的每个字符al,获得所述目标文本中所有字符组成的字符集合其中,1≤l≤L;根据所述目标文本中词语的先验信息,设定词语集合按照预设的第一规则获得词语集合按照预设的第二规则获得词语集合所述初始词语词典其中,表示正整数;wn是由所述集合中的字符组成的词语;
所述预设的第一规则包括:设定为词语中字符的最大长度阈值,为词语出现的最低频率阈值,利用TopWORDS算法提取所述目标文本中长度不超过所述且频率不低于所述的词语,获得所述词语集合
所述预设的第二规则包括:利用预先训练的弱分类器,对所述目标文本中长度不超过所述且频率不低于所述的词语进行提取;确定先验分类概率πc|w,其中,c表示所述目标文本中的词语类别,w表示所述弱分类器提取的词语,πc|w表示给定词语w的情况下,词语类别c的先验分类概率;及选择所述弱分类器提取的词语中,所述先验分类概率πc|w超过预设的分类阈值的词语,获得所述词语集合
所述初始超模式词典其中,e表示终止符,pm表示由形符tj组成的超模式,所述形符其中,j表示正整数;
对所述初始超模式词典的构建包括:设定对所述目标文本中的超模式进行提取时的终止符e;设定词语类别的集合为词语类别集合其中ck表示命名实体的类别,c0表示区别于所述命名实体的背景词的类别;根据所述目标文本中超模式的先验信息,设定超模式集合按照预设的第三规则获得超模式集合所述初始超模式词典
对所述初始参数体系(γ,θw|c)的构建包括:获取所述初始词语词典中的词语在所述目标文本中的计数词频θw;根据所述计数词频θw和所述先验分类概率πc|w,确定给定词语类别c的情况下,所述初始词语词典中词语的抽样概率分布的初始值其中表示给定词语类别c的情况下词语的抽样概率分布;根据所述初始超模式词典中的超模式在所述目标文本中的抽样概率,获得所述中超模式的抽样概率分布的初始值其中γp表示超模式p的抽样概率。
2.根据权利要求1所述的用于人工智能文本分析的双词典模型的初始化方法,其特征在于,所述预设的第三规则包括:
基于所述初始词语词典对所述目标文本中的词语进行识别和分割,并标记所述目标文本中词语的置信度满足
的命名实体,其中,为预先设定的置信度阈值;
设定为超模式中形符的最大长度阈值,为超模式出现的最低频率阈值,扫描并提取所述目标文本中长度不超过所述且频率不低于所述的相邻的被标记的命名实体,获得所述超模式集合
3.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至2中任意一项所述的用于人工智能文本分析的双词典模型的初始化方法。
4.一种计算机装置,其特征在于,该计算机装置包括存储器和至少一个处理器,所述存储器中存储有至少一个指令,所述至少一个指令被所述至少一个处理器执行时实现如权利要求1至2中任意一项所述的用于人工智能文本分析的双词典模型的初始化方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110667864.9/1.html,转载请声明来源钻瓜专利网。