[发明专利]一种基于IDCNN-crf与知识图谱的影视实体识别方法在审
申请号: | 201910955093.6 | 申请日: | 2019-10-09 |
公开(公告)号: | CN110807324A | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 孙云云;刘楚雄;唐军 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/295;G06F40/30;G06F16/35;G06F16/36;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 郭会 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 idcnn crf 知识 图谱 影视 实体 识别 方法 | ||
本发明公开了一种基于IDCNN‑crf与知识图谱的影视实体识别方法,包括以下步骤:A.收集影视数据信息;B.收集大量通过语音转换为文本的用户搜索影视的数据并进行数据分析得到用于模型训练的训练数据;C.对实体识别模型进行训练;D.采集需要进行预测的预测数据,并在进行数据预处理后输入实体识别模型进行预测;E.对模型预测结果进行验证处理并输出。本发明的方法能够解决标注数据少及文本简短、口语化的影视文本数据的实体识别问题。
技术领域
本发明涉及深度学习自然语言处理技术领域,特别涉及一种基于IDCNN-crf 与知识图谱的影视实体识别方法。
背景技术
智能电视已进入了快速发展,视频领域也积累了大量的影片、演员等非结 构化的用户数据。原语义识别系统是语音识别后的文本做简单的数据处理后, 去媒资数据库模糊搜索,由于媒资库数据量大,搜索比较耗时,且准确率不高, 一些噪音数据也有可能被识别成影片名输出,而且不能满足用户多轮请求的需 求,用户体验很差。对语音识别后文本的语义的识别即命名识别是智能电视的 关键技术之一。如何用一种有效地方式准确的提取影视实体,以帮助用户快速 找到其心仪的影视剧,成为一个重要的需求。
目前命名实体识别在自然语言处理中较多采用深度神经网络方法,将语料 标注与词向量特征结合,通过减少人工特征在模型中的比重,减少命名实体识 别系统对于大型语料库的依赖;并通过概率统计降低规则方法的复杂度,有效 提高了模型的性能。在实际工程中主要采用长短期记忆(Long Short Term Memory,LSTM)神经网络及卷积神经网络(Convolutional Neural Networks,CNN) 等深度学习算法。目前对于命名实体识别任务,表现效果最好的算法基本上采 用双向LSTM(Bidirectional LSTM),避免了模型庞大的参数优化问题。采用 BLSTM通过词向量、字符向量等特征,建立Embedding层,再经过双向的LSTM 层,最后为CRF层。该模型集成了深度学习方法的优势,无需特征工程,仅使 用字符向量就可以达到很好的效果。对于序列标注,CNN有一个不足,就是卷 积之后,末层神经元可能只是得到了原始输入数据中一小块的信息。而对NER 来讲,整个输入句子中每个字都有可能对当前位置的标注产生影响,即所谓的 长距离依赖问题。为了覆盖到全部的输入信息就需要加入更多的卷积层,导致 层数越来越深,参数越来越多。而为了防止过拟合又要加入更多的Dropout之类 的正则化,带来更多的超参数,整个模型变得庞大且难以训练。但biLSTM又 有个问题,在对GPU并行计算的利用上不如CNN那么强大。
因此,提出了dilated CNN模型,意思是“膨胀的”CNN。其想法并不复杂: 正常CNN的filter,都是作用在输入矩阵一片连续的区域上,不断sliding做卷 积。dilated CNN为这个filter增加了一个dilation width,作用在输入矩阵的时候, 会skip所有dilationwidth中间的输入数据;而filter本身的大小保持不变,这样 filter获取到了更广阔的输入矩阵上的数据,看上去就像是“膨胀”了一般。而 且与其他领域相比,影视领域涉及实体类别复杂,包含的实体种类也千差万别,” 扫毒”和电影‘扫毒’,看似同一实体却属于不同实体类型,而且实体的命名方 式无法统一,用户普通话不标准,平翘舌不分,同一实体不同表达方式等,都 对语音识别后的命名实体识别产生很大影响。
发明内容
本发明的目的是克服上述背景技术中不足,提供一种基于IDCNN-crf与知 识图谱的影视实体识别方法,能够解决标注数据少及文本简短、口语化的影视 文本数据的实体识别问题。
为了达到上述的技术效果,本发明采取以下技术方案:
一种基于IDCNN-crf与知识图谱的影视实体识别方法,包括以下步骤:
A.收集影视数据信息;
B.收集大量通过语音转换为文本的用户搜索影视的数据并进行数据分 析得到用于模型训练的训练数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910955093.6/2.html,转载请声明来源钻瓜专利网。