[发明专利]基于上下文图随机游走及音形码的微博文本规范化方法在审
申请号: | 201910305628.5 | 申请日: | 2019-04-16 |
公开(公告)号: | CN110032738A | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 中森云链(成都)科技有限责任公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06Q50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于上下文图随机游走及音形码的微博文本规范化方法,属于计算机技术社交媒体文本内容分析和挖掘技术领域。该方法包括:识别非规范词,提取词语上下文;构建上下文图进行随机游走,得到基于上下文的规范化候选集;利用汉字音形码,得到基于音形的规范化候选集;处理两个规范化候选集,得到最终规范化结果。本方法克服了传统方法未充分考虑汉字音形的不足。实质上,社交媒体不同于新闻等书面语,其中充斥着大量的非规范缩写、同音词和同形词,这使得自然语言处理工具处理微博文本的效果不理想。因此,本发明提出了将音形码与前后文理解相结合的微博文本规范化方法,为规范化后利用自然语言处理工具进行分析和挖掘提供了可能。 | ||
搜索关键词: | 规范化 微博 随机游走 候选集 音形码 文本 自然语言处理工具 非规范 汉字音形码 计算机技术 汉字音形 媒体文本 内容分析 挖掘 同音词 构建 音形 词语 分析 | ||
【主权项】:
1.一种基于上下文图随机游走及音形码的微博文本规范化方法,其特征在于,所述方法应用于中文微博文本规范化,包括以下步骤:步骤1:对中文微博文本进行分词操作;步骤2:利用标准词典识别微博文本中的非规范词,并提取词语的上下文;步骤3:根据词语、词语对应的上下文以及词语和对应上下文的共现次数构建出上下文图;步骤4:在上下文图上进行随机游走,得到每个非规范词基于上下文的规范化候选集;步骤5:基于单个汉字的音形码,求出词语的音形码;步骤6:对每个非规范词,提取音形码的特征向量,输入到音形码模型中,输出非规范词对应的预测的规范词的特征向量;步骤7:与标准词典中规范词的特征向量进行对比,找出与非规范词对应的预测的规范词的特征向量最接近的k个词,即为top K个音形相似度最高的规范词,得到基于读音和字形的规范化候选序列;步骤8:处理两个规范化候选集,输出前N个规范词作为相应非规范词的规范化结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中森云链(成都)科技有限责任公司,未经中森云链(成都)科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910305628.5/,转载请声明来源钻瓜专利网。