[发明专利]融合关键词和语义特征的汉越文本相似度计算方法有效
申请号: | 202011006911.7 | 申请日: | 2020-09-23 |
公开(公告)号: | CN112257453B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 高盛祥;潘润海;余正涛;毛存礼;朱俊国;王振晗 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211;G06F40/289;G06F40/284;G06F40/247;G06F40/216 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及融合关键词和语义特征的汉越文本相似度计算方法,属于自然语言处理技术领域。本发明包括步骤:提取汉语、越南语文章的关键词,将越南语关键词翻译为中文,计算出两篇文章中的共现关键词,得到词的相似信息;然后利用共现关键词抽取出与其紧密相关的句子进行拼接来表征文本,并去除无关的句子以压缩文本;再利用知识蒸馏训练出汉越BERT模型对压缩后的文本进行编码,以获得上下文语义特征;最后将词的相似信息和上下文语义特征融合实现文本相关性判断。本发明提升了汉‑越文本相似度计算的准确率。 | ||
搜索关键词: | 融合 关键词 语义 特征 文本 相似 计算方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202011006911.7/,转载请声明来源钻瓜专利网。