[发明专利]一种基于对比学习的新闻文本与评论相关性分析方法在审
申请号: | 202210507391.0 | 申请日: | 2022-05-10 |
公开(公告)号: | CN115146629A | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 王红斌;张卓;李辉;文永华;线岩团 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F40/30;G06F40/194;G06N3/08 |
代理公司: | 昆明合盛知识产权代理事务所(普通合伙) 53210 | 代理人: | 王丹丹 |
地址: | 650093 云南省*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对比 学习 新闻 文本 评论 相关性 分析 方法 | ||
1.一种基于对比学习的新闻文本与评论相关性分析方法,其特征在于,包括以下步骤:
Step1:使用分词工具对新闻文本进行分词、去除停止词和词性标注操作,将新闻文本拆分为带有词性标注的词序列,然后使用正则表达式对词序列进行匹配,组成名词短语,将这些短语作为候选关键词;
Step2:将新闻文本分成m个句子,使用BERT预训练模型对每一个句子进行编码,得到句子的向量表示并使用嵌入对齐的方法来保持文本的上下文语义以及获取候选关键词NPi的词向量
Step3:通过余弦相似度计算得到每一个候选关键词与文本的相似度,然后通过softmax归一化,并结合候选关键词与新闻标题的相似度,得到所有关键词与新闻文本的相似度,接下来选取相似度最高的k个词与新闻标题拼接得到的文本作为新闻文本的表示D;
Step4、使用dropout方法对BERT预训练模型进行随机失活,并使用该模型对新闻文本的表示Di进行处理;训练过程种使用对比学习方法微调预训练模型的参数,模型训练完成后,使用该模型对新闻文本(标题与关键词序列)和对应的评论进行编码,获得新闻文本的向量和评论的向量,之后通过计算向量之间的相似度得到评论与新闻文本的相似度,最后通过设定的相似度阈值对评论进行筛选。
2.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法,其特征在于,所述Step1的具体步骤为:
模型的输入为完整的新闻文本,使用清华大学的THULAC分词工具进行处理,实现对新闻文本的分词与词性标注,将新闻文本转化为词的序列W=(w1,w2,…,wn);然后使用正则表达式对相邻位置的形容词与名词、名词与动词等进行拼接,组成名词短语,将这些短语作为候选关键词NP=(NP1,NP2,…,NPi)。
3.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法,其特征在于,所述Step2的具体步骤为:
设置MSL(minimum sequence length)为最小序列长度,将新闻文本分成大于或等于MSL的m个句子S=(S1,S2,…,Sm);对于每一个句子,使用BERT预训练模型获得句子的向量表示由于BERT预训练模型的self-attention机制,同一个词在不同的语境有着不同的词嵌入;因此,通过嵌入对齐的方法来保持文本的上下文语义以及获取候选关键词NPi的词嵌入;候选关键词NPi的词嵌入如公式(1)所示:
其中NPi表示当前关键词,Sj表示包含当前关键词的句子,表示当前关键词NPi在第j个句子中的词嵌入,n表示包含当前关键词NPi的句子总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210507391.0/1.html,转载请声明来源钻瓜专利网。