[发明专利]一种点评文本标签的自动提取方案在审
申请号: | 202110166250.2 | 申请日: | 2021-02-04 |
公开(公告)号: | CN112800180A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 岑袁京 | 申请(专利权)人: | 北京易车互联信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/279;G06F40/30;G06N3/04;G06N3/08;G06N7/00 |
代理公司: | 北京棘龙知识产权代理有限公司 11740 | 代理人: | 李改平 |
地址: | 100089 北京市海淀区首都体育馆南路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 点评 文本 标签 自动 提取 方案 | ||
1.一种点评文本标签的自动提取方案,其特征在于:包括如下步骤:
步骤一、分词模块:对点评文本进行分词;
步骤二、词嵌入模型:根据海量文本训练处词语的embedding向量表示;
步骤三、情感极性模型:判断文本的情感分类,以正向、负向、中性标记;
步骤四、得出点评结果。
2.根据权利要求1所述的一种点评文本标签的自动提取方案,其特征在于:所述步骤一中分词将连续的字序列按照一定的规范重新组合成词序列的过程,且分词分为英文分词和中文分词。
3.根据权利要求2所述的一种点评文本标签的自动提取方案,其特征在于:所述中文分词技术为机械分词技术、基于统计的序列标注技术和隐式马尔科夫模型技术,优选隐式马尔科夫模型作为分词模块的主引擎。
4.根据权利要求3所述的一种点评文本标签的自动提取方案,其特征在于:所述隐式马尔科夫模型基本思想为根据观测值序列找到真正的隐藏状态值序列,并手工收集部分特有词语集合,使用条件随机场,进行分词后的顺序校对。
5.根据权利要求1所述的一种点评文本标签的自动提取方案,其特征在于:所述词嵌入模型机制如下:
(1)先是获取大量文本数据;
(2)然后我们建立一个可以沿文本滑动的窗;
(3)利用这样的滑动窗就能为训练模型生成大量样本数据。
6.根据权利要求1所述的一种点评文本标签的自动提取方案,其特征在于:所述步骤二中词嵌入模型把自然语言中的每一个词,表示成一个统一意义统一维度的短向量,若遇到生僻的词时,则利用Word2Vec进行词汇捕捉获取。
7.根据权利要求6所述的一种点评文本标签的自动提取方案,其特征在于:所述Word2Vec训练出的词嵌入有两个特点如下:
(1)体现了语义相似关系,如计算距离“red”最近的词嵌入,结果就是“white”,“black”等表示颜色的单词。
(2)体现了语义平移关系,如计算距离“woman”-“man”+“king”最近的词嵌入,结果就是“queen”。
8.根据权利要求1所述的一种点评文本标签的自动提取方案,其特征在于:所述步骤三中情感极性模型按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析,基于新闻评论的情感分析对舆情监控和信息预测,基于产品评论的情感分析帮助用户了解某一产品在大众心目中的口碑。
9.根据权利要求1所述的一种点评文本标签的自动提取方案,其特征在于:所述情感极性模型的情感极性分析方法分为基于情感词典和基于机器学习,使用基于机器学习方法,采用双向长短时神经网络作为情感分类的主引擎。
10.根据权利要求9所述的一种点评文本标签的自动提取方案,其特征在于:所述双向长短时神经网络包括前向LSTM与后向LSTM两个部分,两个部分在自然语言处理任务中均用来建模上下文信息,拼接向量后用于情感分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易车互联信息技术有限公司,未经北京易车互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110166250.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:自动分拣系统
- 下一篇:一种双向可自动调节集装箱吊具