[发明专利]一种文本话题标签生成方法、终端设备及存储介质在审
申请号: | 202011334632.3 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112380866A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 王子玥;徐晓文;俞碧洪 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/335;G06N3/04;G06N3/08 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 话题 标签 生成 方法 终端设备 存储 介质 | ||
本发明涉及一种文本话题标签生成方法、终端设备及存储介质,该方法中包括:S1:将待识别话题文本进行数据清洗后,进行命名实体识别;S2:采集数据并构建一对多的词汇组合形式的样本组成训练集,构建神经网络模型,通过训练集对神经网络模型进行训练,其中样本中的一个词作为神经网络模型的输入,该词对应的多个语义关联词作为神经网络模型的输出;S3:将待识别话题文本对应的每个命名实体依次输入训练后的神经网络模型后,获得输出的多个词,并对多个词进行清洗和筛选后,将清洗和筛选后的结果作为命名实体对应的标签。本发明通过逻辑语义标签训练生成,可对大范围文本进行话题语义的关联度量,将文本相似度范围进行可解释性归纳。
技术领域
本发明涉及文本处理领域,尤其涉及一种文本话题标签生成方法、终端设备及存储介质。
背景技术
随着网络数据的高速膨胀增长,智能数据搜索的需求与日俱增。通过设置相关的搜索条件、关键字标签可以获取到所关注事物事件的新闻、评论等相关知识。而各个大数据中心的建立也需要对原始数据进行逻辑整理与标签化。基于语义信息的逻辑推理标签可以帮助人们在数据中心获取到逻辑语义上而非字符层面上更具关联的信息,在数据中心构建广范围的数据关联及数据推理中提供便利。
现有技术对数据库内容整理主要分为两个方向,一是基于线上信息的直接整理,主要利用网页链接的关联结构,或互联网文本本身检索时带有标签属性;当原始线上文本不带有类似标签分类信息时,数据整理的方法往往依靠人工整备标签内容及类别再利用机器学习方法进行标记训练。线上抓取方式依赖于原始内容标签及互联网链接关系,这会在数据整理过程中产生大量缺省值,导致数据关联稀疏;机器学习方法训练标签分类主要存在耗费人力大、标签覆盖面少,训练结果较为机械缺乏灵活性等缺点。
发明内容
为了解决上述问题,本发明提出了一种文本话题标签生成方法、终端设备及存储介质,在互联网文本缺乏自带话题标签的情形下,对长文本做多话题打标,实现文本内容的话题概括,为多文本内容构建话题关联。
具体方案如下:
一种文本话题标签生成方法,包括以下步骤:
S1:将待识别话题文本进行数据清洗后,进行命名实体识别,获得待识别话题文本对应的所有命名实体;
S2:采集数据并构建一对多的词汇组合形式的样本组成训练集,一对多的词汇组合形式为一个词对应多个该词的语义关联词;构建神经网络模型,通过训练集对神经网络模型进行训练,其中训练集样本的一对多的词汇组合形式中,一个词作为神经网络模型的输入,该词对应的多个语义关联词作为神经网络模型的输出;
S3:将待识别话题文本对应的每个命名实体依次输入训练后的神经网络模型后,获得输出的多个词,并对多个词进行清洗和筛选后,将清洗和筛选后的结果作为命名实体对应的标签。
进一步的,步骤S1中数据清洗包括以下步骤:
S101:将待识别话题文本进行分句处理,划分为多个句子;
S102:去除所有句子中的格式化语段;
S103:对每个句子进行分词、词性识别、去除停用词和去除无意义符号的处理。
进一步的,步骤S1中将命名实体识别结果中的单字实体去除后,作为待识别话题文本对应的命名实体。
进一步的,步骤S2中每个词对应的语义关联词的抽取过程包括以下步骤:
S201:获取每个词对应的多条词汇解释词条;
S202:针对多条词条的被解释词部分,去除由二级汉字构成的词条,并且只保留名词、动词和形容词三种类别的词汇构成的词条;
S203:针对每条词条的解释语部分,去除发音和例句部分,去除无意义的符号,进行分词处理和词性识别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011334632.3/2.html,转载请声明来源钻瓜专利网。