[发明专利]关键词抽取方法及装置在审
申请号: | 202211679210.9 | 申请日: | 2022-12-26 |
公开(公告)号: | CN116010567A | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 周强;解小锐;蔡懿慈 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F18/22;G06F18/214 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 贺爱琳 |
地址: | 100084 北京市海淀区双清路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 抽取 方法 装置 | ||
1.一种关键词抽取方法,其特征在于,包括:
获取待抽取文本;
对所述待抽取文本进行文本分割,获得字词序列;
将所述文本序列输入至抽取模型中,获取所述抽取模型输出的关键词;
其中,所述抽取模型是基于文本序列样本以及所述文本序列样本对应的标签序列样本训练得到的,所述标签序列样本是对所对应的文本序列样本进行序列标注获得的,所述标签序列样本用于在所述文本序列样本中确定关键词。
2.根据权利要求1所述的关键词抽取方法,其特征在于,所述将所述文本序列输入至抽取模型中,获取所述抽取模型输出的关键词包括:
对所述字词序列进行特征提取,获得文本特征向量;
对所述文本特征向量进行预测,获得每个字词对应的标签分数分布;
基于所述标签分数分布确定标签序列;
基于所述标签序列和所述字词序列,输出所述关键词。
3.根据权利要求2所述的关键词抽取方法,其特征在于,所述基于所述标签分数分布确定标签序列包括:
将所述标签分数分布输入至条件随机场模型,获得所述条件随机场模型输出的标签序列。
4.根据权利要求3所述的关键词抽取方法,其特征在于,所述基于所述标签序列和所述字词序列,输出所述关键词,包括:
通过起始字符、结束字符以及所述起始字符和结束字符之间的字符组合为关键词;和
将单一标签对应的字词作为关键词;
输出关键词;
其中,所述起始字符是起始标签对应的字词,所述结束字符是结束标签对应的字词。
5.根据权利要求1-4任一项所述的关键词抽取方法,其特征在于,所述抽取模型是经过如下步骤训练获得的:
基于训练集对初始模型进行多轮训练,每轮训练获得一个候选模型;
基于验证集和预设的损失函数获得每个候选模型对应的损失值;
将最小损失值对应的候选模型作为所述抽取模型;
其中,所述训练集和所述验证集是基于所述文本序列样本以及所述文本序列样本对应的标签序列样本获得的。
6.根据权利要求5所述的关键词抽取方法,其特征在于,所述损失函数为:
其中,Sreal表示正确的标签序列对应的分数,其中Sj表示第j种标签序列对应的分数,N表示可能的标签序列的总数,是归一化因子。
7.一种关键词抽取装置,其特征在于,包括:
获取单元,用于获取待抽取文本;
分割单元,用于对所述待抽取文本进行文本分割,获得字词序列;
抽取单元,用于将所述文本序列输入至抽取模型中,获取所述抽取模型输出的关键词;
其中,所述抽取模型是基于文本序列样本以及所述文本序列样本对应的标签序列样本训练得到的,所述标签序列样本是对所对应的文本序列样本进行序列标注获得的,所述标签序列样本用于在所述文本序列样本中确定关键词。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述关键词抽取方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述关键词抽取方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述关键词抽取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211679210.9/1.html,转载请声明来源钻瓜专利网。