[发明专利]一种关键词抽取方法、装置、电子设备及存储介质在审
申请号: | 202011415835.5 | 申请日: | 2020-12-02 |
公开(公告)号: | CN112364648A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 黄晓萌;安旭;王溪 | 申请(专利权)人: | 中金智汇科技有限责任公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/284;G06F40/253;G06F40/242;G06F40/211;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 余菲 |
地址: | 100000 北京市北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 抽取 方法 装置 电子设备 存储 介质 | ||
本申请提供一种关键词抽取方法、装置、电子设备及存储介质,该方法包括:获取文本语料中的语句内容;对语句内容进行分词,获得词语集合;对词语集合进行词性标注,获得词性集合;对词语集合和词性集合进行句法分析,获得分析结果;根据句法关系从分析结果中抽取出关键词,获得关键词集合。在上述的实现过程中,通过对文本语料中的语句内容依次进行分词、词性标注和句法分析,获得能够体现语句内容中两个词语之间的句法关系,并根据该句法关系来从分析结果中抽取出更加准确的关键词,有效地利用了句法关系的信息来提高获得关键词的准确率,从而提高了获得关键词集合的准确率。
技术领域
本申请涉及自然语言处理的技术领域,具体而言,涉及一种关键词抽取方法、装置、电子设备及存储介质。
背景技术
关键词抽取,是指利用自然语言处理(Natural Language Processing,NLP)技术从大量文本内容中抽取出关键的词语。关键词抽取是自然语言处理(NLP)领域的经典课题,也是人们从海量数据中高效地获取有效信息的重要手段。
目前,使用基于统计学的方法来对关键词进行抽取,需要具备统计学知识和语言学知识的业务人员根据业务需求定制出统计维度,并根据定制的统计维度对文本语料进行统计学分析,然后按照重要程度对统计结果中的词语进行获取,从而获得关键词集合,此处的统计维度包括:词频和词性等。
在具体的实践过程中发现,基于统计学的方法对没有固定规则或者统计学特点不明显的文本语料进行关键词抽取的准确率较低,此处的统计学特点不明显的文本语料具体例如:在线客户服务沟通日志、电话回访服务质量日志或者电话销售沟通记录等等。
发明内容
本申请实施例的目的在于提供一种关键词抽取方法、装置、电子设备及存储介质,用于改善对关键词进行抽取的准确率较低的问题。
本申请实施例提供了一种关键词抽取方法,包括:获取文本语料中的语句内容;对语句内容进行分词,获得词语集合;对词语集合进行词性标注,获得词性集合;对词语集合和词性集合进行句法分析,获得分析结果,分析结果包括多条分析记录,多条分析记录中的每条分析记录包括:词语集合中的两个词语和两个词语之间的句法关系;根据句法关系从分析结果中抽取出关键词,获得关键词集合。在上述的实现过程中,通过对文本语料中的语句内容依次进行分词、词性标注和句法分析,获得能够体现语义理解基础上两个词语之间的句法关系,并根据该句法关系来从分析结果中抽取出更加准确的关键词,有效地利用了句法关系的信息来提高获得关键词的准确率,从而提高了获得关键词集合的准确率。
可选地,在本申请实施例中,根据句法关系从分析结果中抽取出关键词,包括:判断分析记录对应的句法关系是否为修饰性关系;若是,则将修饰性关系对应的两个词语都确定为关键词。在上述的实现过程中,若分析记录对应的句法关系为修饰性关系,则将修饰性关系对应的两个词语都确定为关键词;有效地利用了修饰性关系来提高获得关键词的准确率,从而提高了获得关键词集合的准确率。
可选地,在本申请实施例中,根据句法关系从分析结果中抽取出关键词,包括:判断分析记录对应的句法关系是否为关联修饰关系;若是,则将关联修饰关系对应的修饰词语确定为关键词。在上述的实现过程中,若分析记录对应的句法关系为关联修饰关系,则将关联修饰关系对应的修饰词语确定为关键词;有效地利用了关联修饰关系来提高获得关键词的准确率,从而提高了获得关键词集合的准确率。
可选地,在本申请实施例中,根据句法关系从分析结果中抽取出关键词,包括:判断分析结果是否满足预设条件,预设条件包括:第一词语为第二词语的直接宾语,且第二词语与第三词语的句法关系为修饰性关系;若是,则将第一词语、第二词语和第三词语都确定为关键词。在上述的实现过程中,若分析结果是否满足预设条件,预设条件包括:第一词语为第二词语的直接宾语,且第二词语与第三词语的句法关系为修饰性关系,则将第一词语、第二词语和第三词语都确定为关键词;有效地利用了直接宾语加修饰性关系来提高获得关键词的准确率,从而提高了获得关键词集合的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中金智汇科技有限责任公司,未经中金智汇科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011415835.5/2.html,转载请声明来源钻瓜专利网。