[发明专利]一种基于中文文本分类的情报快速整编方法在审
申请号: | 202110509298.9 | 申请日: | 2021-05-11 |
公开(公告)号: | CN113177120A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 赵翔;郭爱博;谭真;庞宁;陈盈果;马武彬;肖卫东 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 长沙大珂知识产权代理事务所(普通合伙) 43236 | 代理人: | 伍志祥 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 中文 文本 分类 情报 快速 整编 方法 | ||
本发明公开了一种基于中文文本分类的情报快速整编方法,包括将每个字符和输入词转换为向量,对于具有多重感觉的字符和单词,通过共同学习词语和感觉来获得多重感觉嵌入;利用三个LSTM单元来融合多种字符意义、多种单词意义以及字符级和单词级特征,获得双向隐藏向量序列,并馈送到多维度注意力模块以产生多维度特征向量,将最终表示传输到完全连接层中以计算每种类型的置信度得分;以信息增益为目标函数,迭代优化模型中的参数直至收敛;生成用户情报产品。在三个中文文本分类基准数据集上,本发明取得了超越基线的优异分类准确率,有效解决了中文分词的歧义性带来的负面影响,运行简单高效,模型复杂性远低于BERT类模型。
技术领域
本发明属于文本分类技术领域,尤其涉及一种基于中文文本分类的情报快速整编方法。
技术背景
文本分类作为自然语言处理中的一项基础任务,目前在英文文本上的效果已经达到了可实用的程度,但是在中文文本上,由于分词所带来的歧义性仍然给文本分类带来了严峻挑战。具体而言,由于中文没有自然定界符,将输入句子序列分词可能得到不同的分割结果,而分割歧义会进而损害文本分类模型的性能;此外,即使正确分割之后,每个词也可能存在一词多义的现象,为准确识别语义带来了困难。已有模型为多义词训练单一的嵌入表示明显是不合理的,也会导致模型性能的下降。
在自然语言处理中,文本分类是众多下游应用所依赖(包括情感分析和观点挖掘)的关键任务。该任务被定义为从预定义的标签集中为给定文本选择适当的类别标签。传统方法设计手工特征,例如词袋(BOW)和n-gram,并将线性分类器应用于分类。最近,神经网络(例如卷积神经网络和递归神经网络)的流行提升了神经文本分类模型的热度,因为神经网络可以自动从原始文本中提取有用的特征来进行端到端的类别预测,并且取得更好的效果。
然而,目前大多数关于文本分类的高级研究都集中在英语上,却忽略了不同语言具有不同的文本形式。基于英语文本的主流方法不能直接套用到其他语言上,因为这些方法依赖分词好的句子序列。然而有些语言没有自然定界符,例如中文,这就使得句子分割变得困难。现有的中文文本分类工作可以按照分割粒度分为两类:基于字符的模型和基于单词的模型。在基于字符的模型中,输入句子被视为字符序列。这种类型的模型的缺点是没有充分利用单词的信息量。而基于单词的模型使用自然语言处理工具来执行单词分割。然而,他们存在由单词分割工具引起的分割歧义的问题。例如,附图1中第一行是句子的字符序列。第二行显示正确的分段单词序列,而第三行显示错误的单词序列。在图1中的句子,正确的单词序列表示的是“位置”类型,但是错误的单词序列倾向于描述“学习”的类型。可见,分词歧义性可能会损害文本分类模型的性能。
最近有工作试图通过级联或加法方式整合这两个粒度的特征,从而解决分词歧义性问题。但是它们的融合策略仍然停留在浅层。虽然它们使用神经网络分别从单词序列和字符序列中提取特征,但是忽略了内部单词和字符之间的依赖关系,这就导致提取到的特征仅仅是两个文本细粒度上的简单组合,并不能够有效地提高模型性能。但是在现实文本中,单词序列和字符序列是相互依赖的,例如,单词“法学院(Law School)”以字符“法(Law)”开头,因此它们共享相同的历史上下文信息。然后,在此位置应集成单词级和字符级信息,因为单词“法学院(Law School)”以字符“院(Institute)”结尾。
此外,即使能够正确分割一个句子序列,分割后得到的多义词的模糊性仍然不可忽视。现有的神经文本分类模型首先通过查找嵌入表将离散的单词或字符映射到向量空间中。具有多种含义的单词或字符不能用这种方式很好地处理,因为每个单词或字符仅对应一个嵌入。因此,为多义词训练单一嵌入是不合理的。
传统的文本分类模型第一步从文本中提取了一些手工的特征。第二步,将这些特征送入分类器以进行预测。典型特征包括词袋和TF-IDF,流行的分类器包括支持向量机和随机森林。但是,这种方法严重依靠繁琐的特征工程来实现较好的性能,需要依赖于领域知识来设计特征。因此这种方法限制了对新任务的推广。
深度学习的最新发展引发了采用神经网络进行文本分类的趋势,因为神经网络可以自动学习输入文本的特征以进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110509298.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种热力循环系统以及热力气暖设备
- 下一篇:一种多功能户外广告设计牌