[发明专利]一种基于隐喻主题挖掘的景区评价知识库构建方法有效
申请号: | 201911302244.4 | 申请日: | 2019-12-17 |
公开(公告)号: | CN111078894B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 解吉波;杨腾飞;林振宇;李国庆 | 申请(专利权)人: | 中国科学院遥感与数字地球研究所 |
主分类号: | G06N5/025 | 分类号: | G06N5/025;G06N5/02;G06F16/36;G06F16/35;G06F16/31;G06F40/242;G06Q30/0282;G06Q50/14 |
代理公司: | 北京盛询知识产权代理有限公司 11901 | 代理人: | 张海青 |
地址: | 100094*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 隐喻 主题 挖掘 景区 评价 知识库 构建 方法 | ||
1.一种基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,包括如下步骤:
S1、采用景区隐性主题挖掘算法(Scenic hidden topic mining algorithm,SHTMA)构建景区隐性多主题知识库:根据显性主题词从景区评论语料中挖掘隐性主题词,构建景区隐性多主题知识库;其中,显性主题词与隐性主题词共同构成了基础多主题知识库;
S2、采用景区隐喻主题特征挖掘算法(Scenic metaphor topic feature miningalgorithm,SMTFMA)构建景区的隐喻多主题知识库:所述隐喻多主题知识库由隐喻主题词及隐喻主题特征两部分组成,根据步骤S1中得到的基础多主题知识库,从景区评论语料中挖掘隐喻主题词及隐喻主题特征,构建景区的隐喻多主题知识库;将隐喻主题词与基础多主题知识库进行整合,得到景区多主题知识库,将隐喻主题特征与情感词库整合得到景区情感词知识库;
S3、构建景区评价知识库:基于景区语料库的语义搭配计算模型来计算景区主题词与情感词之间的搭配关系,并对主题词与情感词构成的搭配进行优化,使景区主题词与情感词形成一对多的搭配,以知识树的形式进行存放,构建景区评价知识库;并基于景区评价知识库对游客评论数据所属的主题及在该主题下对应的情感倾向进行识别;
所述采用景区语料库的语义搭配计算模型进行情感词与主题词的搭配的具体方法包括:
首先,计算主题词与情感词的共现度,如式1所示;
其中,T表示主题词,E表示情感词,f(T,E)表示主题词与情感词在语料中出现在同一语句的句子个数,f(T)表示主题词在语料中单独出现的句子个数,f(E)表示情感词在语料中单独出现的句子个数,W(T,E)表示主题词与情感词的共现度;
其次,对主题词与情感词构成的搭配进行优化:主题词与情感词共现度的阈值为H,0<H<1,当主题词与情感词在旅游领域语料库的共现度大于阈值H时,视为该主题词与该情感词能构成搭配,小于阈值H时,视为不能构成搭配并将其删除,完成主题词与情感词搭配的优化,构建与主题词对应的情感词词库。
2.根据权利要求1所述的基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,所述步骤S1景区隐性多主题知识库的构建方法具体包括:
首先构建景区显性多主题知识库,其次采用SHTMA,把基于各主题的显性主题词作为种子词,从景区评论语料中挖掘提取语料中包含的隐性主题词,构建隐性多主题知识库。
3.根据权利要求2所述的基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,所述SHTMA的具体流程包括:
首先,对游客评论语料进行预处理,获取隐性主题词候选词库;其次,通过SHTMA词向量模型计算显性主题词与隐性主题词候选词库中词语的相似度,根据相似度挖掘隐性主题词,挖掘出的隐性主题词构成隐性多主题知识库,具体包括:先使用评论语料训练词向量模型,再将显性主题词输入训练好的词向量模型,经过词向量模型的计算,得到隐性主题词候选词库中词与输入的显性主题词的语义特征相似度,根据语义特征相似度挖掘隐性主题词,并组成候选的隐性主题词。
4.根据权利要求1所述的基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,所述S2中隐喻主题词及隐喻主题特征的挖掘方法具体包括:
首先,从语料库中筛选出针对各主题的景区评论语料,景区评论语料包括基础主题词、隐喻主题词、隐喻主题特征,将语料中的句子按照标点符号分成短句;其次,基于SMTFMA,使用处理后的语料训练分类器模型,并使用训练后的分类器模型从景区评论语料中识别并挖掘隐喻主题词及隐喻主题特征,构建隐喻多主题知识库。
5.根据权利要求4所述的基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,所述SMTFMA的具体流程包括:
首先,基于基础多主题知识库,对基于显性主题、隐性主题及隐喻主题特征的语料进行人工标注;其次,通过人工标注的景区评论语料的隐喻特征对SMTFMA条件随机场分类器进行训练,根据训练后的条件随机场分类器计算未经标注语料在特定特征词出现的情况下,待计算特征词出现的概率,根据特征词出现的概率识别指定词的隐喻主题词及隐喻主题特征。
6.根据权利要求1所述的基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,所述S3构建景区评价知识库的具体方法包括:
首先,构建旅游情感词典知识库;其次,基于景区多主题知识库及旅游情感词典知识库,采用景区语料库的语义搭配计算模型进行情感词与主题词的搭配,形成主题词与情感词之间一对多的搭配形式,并以SQL形式存放在数据库之中,构建景区评价知识库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院遥感与数字地球研究所,未经中国科学院遥感与数字地球研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911302244.4/1.html,转载请声明来源钻瓜专利网。