[发明专利]主题词提取方法、装置、存储介质及电子设备有效

申请号：	201910882514.7	申请日：	2019-09-18
公开（公告）号：	CN110705275B	公开（公告）日：	2023-04-25
发明（设计）人：	贾弼然;崔朝辉;赵立军;张霞	申请（专利权）人：	东软集团股份有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F16/35
代理公司：	北京英创嘉友知识产权代理事务所(普通合伙) 11447	代理人：	魏嘉熹
地址：	110179 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	主题词提取方法装置存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种主题词提取方法、装置、存储介质及电子设备，以避免提取出的主题词之间毫不相关的情况。该方法包括：接收客户端发送的用于确定目标文本的主题词的请求；响应于接收到所述请求，将所述目标文本输入到主题词模型中进行处理，得到所述目标文本的主题词；其中，所述主题词模型中包括已标注主题词的多个文本，所述多个文本中的每个文本对应至少一个主题词，所述主题词模型用于通过如下方式对所述目标文本进行处理：在所述已标注主题词的多个文本中，确定所述目标文本的相似文本；确定所述相似文本中各主题词的目标权重值；将所述目标权重值最大的主题词确定为所述目标文本的主题词。

技术领域

本公开涉及文本处理技术领域，具体地，涉及一种主题词提取方法、装置、存储介质及电子设备。

背景技术

主题词是指可以表征文本主要内容的分词，例如，在基于内容的文本分类中，可以提取能够反映文本内容的主题词，然后根据提取到的主题词进行文本分类。

相关技术中，对于主题词的提取大多是使用LDA算法(Latent DirichletAllocation，文档主题生成模型)对文本进行处理。其中，LDA是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法，将每一篇文档视为一个词频向量，并认为每一篇文档代表了一些主题所构成的Dirichlet分布，而每一个主题又代表了很多单词所构成的Dirichlet分布。但是，由于Dirichlet分布中各分量间的弱相关性，可能使得提取出的主题词之间毫不相关，从而无法根据该主题词较好地确定文本的主要内容。

发明内容

本公开的目的是提供一种主题词提取方法、装置、存储介质及电子设备，以避免提取出的主题词之间毫不相关的情况。

为了实现上述目的，第一方面，本公开提供一种主题词提取方法，应用于服务器，包括：

接收客户端发送的用于确定目标文本的主题词的请求；

响应于接收到所述请求，将所述目标文本输入到主题词模型中进行处理，得到所述目标文本的主题词；

其中，所述主题词模型中包括已标注主题词的多个文本，所述多个文本中的每个文本对应至少一个主题词，所述主题词模型用于通过如下方式对所述目标文本进行处理：

在所述已标注主题词的多个文本中，确定所述目标文本的相似文本；

确定所述相似文本中各主题词的目标权重值；

将所述目标权重值最大的主题词确定为所述目标文本的主题词。

可选地，所述目标文本为投诉文本，所述方法还包括：

根据所述主题词，确定所述目标文本所属的投诉类型；

将所述目标文本发送给所述投诉类型对应的投诉处理终端，以使所述投诉处理终端对所述目标文本进行处理。