[发明专利]文本划分的方法、装置和存储介质以及电子设备有效
申请号: | 201711488050.9 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108255808B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 董超;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06Q30/02 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 南毅宁;魏嘉熹 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 划分 方法 装置 存储 介质 以及 电子设备 | ||
本公开涉及一种文本划分的方法、装置和存储介质以及电子设备,该方法包括:获取多个样本评价文本;从每个样本评价文本中确定评价词组,评价词组包括对象词语和评价词语,评价词语用于评价对象词语对应的评价对象;获取评价词组对应的划分维度;根据评价词组和划分维度得到文本划分模板;获取待划分评价文本,并通过文本划分模板对待划分评价文本进行划分。
技术领域
本公开涉及数据处理领域,具体地,涉及一种文本划分的方法、装置和存储介质以及电子设备。
背景技术
随着互联网的快速发展,互联网上存在着对各种各样的商品进行口碑评价的评价信息,例如电商领域,已经购买过目标商品的用户通常会对目标商品、商家服务以及物流等整体服务流程体系进行评价,这样,使得准备购买该目标商品的用户可以查看已经购买过该目标商品的用户的评价信息以对目标商品进行多方面的了解,从而判断该目标商品是否符合自身需求,此外,商家可根据评价信息来改进自身的不足之处。
但是,在信息爆炸的时代,由于评价信息是海量的,并且评价信息中包括了对目标商品不同方面的评价,这样,若用户关注的信息为该目标商品的某一方面,则需要从该评价信息中逐个查找关注的信息并进行查看,耗费用户较长时间。
发明内容
为了解决上述问题,本公开提出了一种文本划分的方法、装置和存储介质以及电子设备。
根据本公开实施例的第一方面,提供一种文本划分的方法,所述方法包括:
获取多个样本评价文本;
从每个所述样本评价文本中确定评价词组,所述评价词组包括对象词语和评价词语,所述评价词语用于评价所述对象词语对应的评价对象;
获取所述评价词组对应的划分维度;
根据所述评价词组和所述划分维度得到文本划分模板;
获取待划分评价文本,并通过所述文本划分模板对所述待划分评价文本进行划分。
可选地,在所述根据所述评价词组和所述划分维度得到文本划分模板之前,还包括:
获取所述评价词组对应的评价标识;
所述根据所述评价词组和所述划分维度得到文本划分模板包括:
根据所述评价标识和所述评价词组以及所述划分维度得到所述文本划分模板。
可选地,所述获取所述评价词组对应的评价标识包括:
确定所述评价词组在每个所述样本评价文本中的权重;
根据所述评价标识和所述权重获取评价标识函数;所述评价标识函数是以所述评价标识作为未知量的函数;
根据所述评价标识函数得到所述评价标识。
可选地,所述从每个所述样本评价文本中确定评价词组包括:
将每个所述样本评价文本进行分词处理得到多个样本词语;
通过多个所述样本词语训练预设词模型得到词向量模型;
根据所述词向量模型确定所述评价词组。
可选地,在所述根据所述词向量模型确定所述评价词组前,还包括:
对每个所述样本评价文本进行分句处理得到每个所述样本评价文本的至少一个样本分句;
获取每个所述样本分句的句法信息;所述句法信息包括所述样本分句中的分词词语的词性信息和所述分词词语在对应的所述样本分句中的句法结构;
所述根据所述词向量模型确定所述评价词组包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711488050.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种识别研发方向的方法
- 下一篇:考虑词语相似度的计算文档所对应的主题的方法