[发明专利]一种文本话题标签生成方法、终端设备及存储介质在审
申请号: | 202011334632.3 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112380866A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 王子玥;徐晓文;俞碧洪 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/335;G06N3/04;G06N3/08 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 话题 标签 生成 方法 终端设备 存储 介质 | ||
1.一种文本话题标签生成方法,其特征在于,包括以下步骤:
S1:将待识别话题文本进行数据清洗后,进行命名实体识别,获得待识别话题文本对应的所有命名实体;
S2:采集数据并构建一对多的词汇组合形式的样本组成训练集,一对多的词汇组合形式为一个词对应多个该词的语义关联词;构建神经网络模型,通过训练集对神经网络模型进行训练,其中训练集样本的一对多的词汇组合形式中,一个词作为神经网络模型的输入,该词对应的多个语义关联词作为神经网络模型的输出;
S3:将待识别话题文本对应的每个命名实体依次输入训练后的神经网络模型后,获得输出的多个词,并对多个词进行清洗和筛选后,将清洗和筛选后的结果作为命名实体对应的标签。
2.根据权利要求1所述的文本话题标签生成方法,其特征在于:步骤S1中数据清洗包括以下步骤:
S101:将待识别话题文本进行分句处理,划分为多个句子;
S102:去除所有句子中的格式化语段;
S103:对每个句子进行分词、词性识别、去除停用词和去除无意义符号的处理。
3.根据权利要求1所述的文本话题标签生成方法,其特征在于:步骤S1中将命名实体识别结果中的单字实体去除后,作为待识别话题文本对应的命名实体。
4.根据权利要求1所述的文本话题标签生成方法,其特征在于:步骤S2中每个词对应的语义关联词的抽取过程包括以下步骤:
S201:获取每个词对应的多条词汇解释词条;
S202:针对多条词条的被解释词部分,去除由二级汉字构成的词条,并且只保留名词、动词和形容词三种类别的词汇构成的词条;
S203:针对每条词条的解释语部分,去除发音和例句部分,去除无意义的符号,进行分词处理和词性识别;
S204:根据被解释词的词性,抽取解释语中的对应词性的词作为被解释词对应的语义关联词。
5.根据权利要求1所述的文本话题标签生成方法,其特征在于:神经网络模型的网络结构为多层感知机网络结构,其中前三层为全连接网络,后三层对应输出端为各自独立的全连接网络。
6.根据权利要求1所述的文本话题标签生成方法,其特征在于:神经网络模型的损失函数loss为:
其中,表示网络输出的第i个向量,wi表示训练集中第i个样本对应的输入向量,n表示训练集中样本的个数。
7.根据权利要求1所述的文本话题标签生成方法,其特征在于:步骤S3中清洗和筛选包括:去除标点符号,去除5个字以上的长词汇、去除单字词汇和去除由二级汉字构成的词汇。
8.一种文本话题标签生成终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~7中任一所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1~7中任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011334632.3/1.html,转载请声明来源钻瓜专利网。