[发明专利]关键词抽取方法及装置在审
申请号: | 202211679210.9 | 申请日: | 2022-12-26 |
公开(公告)号: | CN116010567A | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 周强;解小锐;蔡懿慈 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F18/22;G06F18/214 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 贺爱琳 |
地址: | 100084 北京市海淀区双清路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 抽取 方法 装置 | ||
本发明提供一种关键词抽取方法及装置,其中方法包括:获取待抽取文本;对所述待抽取文本进行文本分割,获得字词序列;将所述文本序列输入至抽取模型中,获取所述抽取模型输出的关键词;其中,所述抽取模型是基于文本序列样本以及所述文本序列样本对应的标签序列样本训练得到的,所述标签序列样本是对所对应的文本序列样本进行序列标注获得的,所述标签序列样本用于在所述文本序列样本中确定关键词。本发明实施例提供的关键词抽取方法及装置,通过有监督训练提高了关键词抽取的准确性。
技术领域
本发明涉及计算机技术领域,尤其涉及一种关键词抽取方法及装置。
背景技术
关键词(也可以称为主题词,Keywords or Keyphrases)在很多自然语言处理任务例如文本总结、问题生成、文本分类和文本检索中也起到了重要作用。以文献检索为例,随着科学技术的不断发展,科技文献的数量不断增长,在海量文献中快速精准地找到相关文献愈发困难,关键词作为概括,总结一篇文章中心内容的短语可以帮助科研人员更方便快捷地了解文章的内容,从而提高了文献调研的效率。
目前相关技术中通常采用基于无监督的关键词抽取方法,存在关键词抽取准确率低的问题。
发明内容
本发明提供一种关键词抽取方法及装置,用以解决现有技术中关键词抽取准确率低的缺陷,提高关键词抽取质量。
第一方面,本发明提供一种关键词抽取方法,包括:
获取待抽取文本;
对所述待抽取文本进行文本分割,获得字词序列;
将所述文本序列输入至抽取模型中,获取所述抽取模型输出的关键词;
其中,所述抽取模型是基于文本序列样本以及所述文本序列样本对应的标签序列样本训练得到的,所述标签序列样本是对所对应的文本序列样本进行序列标注获得的,所述标签序列样本用于在所述文本序列样本中确定关键词。
可选地,所述将所述文本序列输入至抽取模型中,获取所述抽取模型输出的关键词包括:
对所述字词序列进行特征提取,获得文本特征向量;
对所述文本特征向量进行预测,获得每个字词对应的标签分数分布;
基于所述标签分数分布确定标签序列;
基于所述标签序列和所述字词序列,输出所述关键词。
可选地,所述基于所述标签分数分布确定标签序列包括:
将所述标签分数分布输入至随机场模型,获得所述随机场模型输出的标签序列。
可选地,所述基于所述标签序列和所述字词序列,输出所述关键词,包括:
通过起始字符、结束字符以及所述起始字符和结束字符之间的字符组合为关键词;和
将单一标签对应的字词作为关键词;
输出关键词;
其中,所述起始字符是起始标签对应的字词,所述结束字符是结束标签对应的字词。
可选地,所述抽取模型是经过如下步骤训练获得的:
基于训练集对初始模型进行多轮训练,每轮训练获得一个候选模型;
基于验证集和预设的损失函数获得每个候选模型对应的损失值;
将最小损失值对应的候选模型作为所述抽取模型;
其中,所述训练集和所述验证集是基于所述文本序列样本以及所述文本序列样本对应的标签序列样本获得的。
可选地,所述损失函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211679210.9/2.html,转载请声明来源钻瓜专利网。