目录

概括

当今的互联网时代带动了微博娱乐平台的发展。 微博评价情感分析不仅可以通过对新浪微博评论的情感分析来掌握社会群体的意见和态度,还可以完善管理部门的舆情监控。

通过当今情感分析技术的分析,为了提高微博评价分析的准确性,可以使用支持向量机(SVM)来分析微博评论。 在这个过程中,积累了大量的文本分类和文本分析的经验,分析结果的准确性也可以逐步提高,实现微博评价分析的重要意义。

采用引入表达式的文本情感分析算法来实现微博文本的情感分析。 受用户习惯影响,微博文字通常由短文字和表情符号组成。 由于表情符号所表达的情感往往简单明了,远不如汉字丰富,因此往往能够更准确地表达用户的情感。 表情符号也被用作情感参考值,这使得文本情感判定的准确性得到了一些提高。

关键词:微博评论; 文本分类; 情绪分析; 支持向量机

抽象的

在电子商务蓬勃发展的网络环境下,当今互联网时代的主观评论文本推动了微博娱乐平台的发展。 微博评价情感分析不仅可以实现对新浪微博评论的情感分析,还可以掌握社会群体的意见和态度,完善管理部门的舆情监测。

通过当今情感分析技术的分析,为了提高微博评价分析的准确性,可以使用支持向量机(SVM)来分析微博评论。 在这个过程中,不仅积累了大量的文本分类和文本分析的经验,而且分析结果的准确性也能逐步提高,达到对微博进行评价和分析的意义。

利用引入表达式的文本情感分析算法实现微博文本的情感分析。 受用户习惯影响,微博文字一般由短文字和表情符号组成。 由于表情符号表达的情感一般比较直白,远不如汉字丰富,因此通常可以更准确地表达用户的情感。 表情符号也被用作情感参考值,这对文本情感判定的准确性有了一定的提高。

关键词:产品评论、文本分类、情感分析

第一章引言 1.1 研究背景

微博上的信息在用户之间共享和流通,赋予了微博传播的特性。 微博上的信息蕴含着用户的主观情感。 用户可以在文本中添加情感词语,使微博能够描述人类的主观偏好。 、欣赏、感受等情感特征。 在微博传播过程中,热点话题可能会在某个时间点或者某个用户参与后出现爆发式增长。 微博的传播依赖于用户,因此需要了解哪些用户适合进行导流工作,哪些用户会引起不必要的轰动,应尽量避免。 微博情感信息的来源仍然是用户,研究需要发现用户的情感变化以及与其他用户情感不同的用户。 采用视觉化的方式呈现信息,可以帮助用户更深入地了解微博的特点。 可视化在用户和数据之间架起了一座桥梁,让用户洞察看似零散实则神秘的数据关系和模式,发现有价值的情感趋势和传播趋势,这对于舆论引导和新闻传播都非常积极。 意义。

1.2 国内外研究现状

随着互联网上在线评价信息的不断增加。 据《第35次中国互联网发展状况统计报告》显示,截至2014年12月,中国网民规模达6.49亿。 情感分析研究表明,每个人对热点事件都有自己的看法,态度也会有很大差异。 我们会从数据中分析情绪倾向,有些因素也会影响评价对象的微博评论。 方向之一就是对这些微博评论进行情感分析。 在中国,复旦大学的朱艳兰和周亚谦根据词语的语义相似度计算词语的语义倾向,并研究文本词语与知网已知贬义词的相关性,推导出文本的情感倾向。 。 后来研究人员不断尝试完善情感词典。 刘卫平首先识别出语义词集中的种子词和贬义词集中的种子词。 借助知网情感词集构建汉语基础情感词典,并融合TF-IDF方法。 最后,利用加权来确定中文文本数据集的情感极性。

经过查阅国内外文献,我们发现使用情感词典的方法更适合情感分析研究。 我们知道,情感词虽然可以反映情感倾向,如积极、消极等,但有些情感词也有优缺点,如“兴奋”比“高兴”强度更高,因此本文结合汉语情感词本体数据库构建具有情感强度的基本情感词,此外还会构建程度副词、否定词等情感词典,采用情感倾向赋权法计算微博评论的情感度,因为可以使用赋权法区分情绪的强弱,体现差异性,提高准确率和分类效果。

近年来,虽然研究者对微博情感分类的兴趣持续上升,但与国外相比仍存在一定差距。 毕竟中文微博和英文微博不一样。 在中文微博中,情感分类研究仍然存在很大的挑战。

1.3 研究目的和意义

如今,网络微博评论数量众多,评论内容五花八门,让大家获取信息变得困难。 因此,有效地挖掘这些评价,尤其是对微博评价进行情感分析,这就是我们要研究的基于微博评价的支持向量机分析,通过微博评价更好地解决微博评价问题。支持向量机方法。 对二分类问题进行评论。 对微博评论句子进行数据预处理和分词,将句子情感的识别转化为词汇序列的情感识别问题。 为了提高词语情感识别的准确率,减轻实验工作强度,本文采用基于“词云”的数据可视化方法对特定词语进行筛选和判断,并通过Word2vec和Word2vec提取原始文本数据的特征信息。其他方法。 构建词向量矩阵,为后续情感分类模型的训练提供数据。

使用数据可视化工具进行报道可以让我们用一些简短的图形来反映复杂的信息,这可以更好地帮助我们掌握社会群体的观点和态度。

1. 研究现有的情感分析算法,了解其缺点及其原因。 基于当前的研究现状,了解推荐算法的关键问题和提出的解决方案,综合各算法的优点,并进行改进。 算法分析数据。

2.微博情感分类具有重要的理论意义和应用价值[2]。

1.4 全文组织结构

本文分为6章。 文章结构及各章节介绍如下:

第一章介绍了本文的研究背景、目的和意义,以及国内外汉语句子情感分析的研究现状。 最后给出了全文的整体组织结构。

第2章主要介绍本文所使用的技术和算法,如文本挖掘技术、SVM、Word2Vec、Python等。

第3章重点介绍基于SVM和情感词典的情感分析方法。

第4章的实现过程从获取原始数据、对数据进行文本预处理、使用word2vec模型训练SVM模型开始,最后进行情感判断。

第五章:工作总结与展望。 主要对论文的工作进行了总结和回顾,并提出了未来的工作展望。

第二章相关技术概述 2.1 文本挖掘技术

Web挖掘是从数据挖掘逐渐发展而来的[3][4]。 但也可以说它的理念是从大量的网络信息中寻找有用的信息。 在动态、半结构化网站资源中搜索重要信息是一个包含网络技术的综合领域。 Web中的内容挖掘一般都是基于文本信息挖掘,但功能和方法一般与普通的平面文本挖掘相同。 然而,大多数Web文本都是非结构化和半结构化的,因此它们往往比传统的数据挖掘更加困难。 。 传统的数据挖掘面向数据仓库中的数据、网页结构的差异性以及网页内容的实时变化,需要对众多网页进行操作来获取数据对象。 其特点是Web挖掘使用文本分类、文本聚类和关联。 规则和其他方法来详细分析内容。

文本挖掘的主要功能是从未经处理的原始文本中提取有用的知识,但文本挖掘是一项非常困难的任务,因为它要处理本质上模糊且非结构化的文本数据,因此需要学习涵盖文本的多种学科分析、模式识别、统计、数据可视化、机器学习、数据挖掘等技术。

在这里插入图片描述

图2-1 文本挖掘流程图

2.2 支持向量机

基于支持向量机的方法将文本趋势分析视为分类问题,并选择距离两个样本尽可能远的中间线。 当有新的样本到来时,判断这条线的哪一部分可以得出新样本的类别。 选择文本中的代表词作为特征,计算其权重,形成向量空间模型。

SVM利用有限的样本信息来寻找学习能力和模型复杂度之间的最佳点,以获得最佳的改进能力。 SVM 最初表现出优于现有方法的性能 [5]。 有学者认为,随着神经网络的发展,支持向量机正在成为新的研究热点[6]。

2.3 Python

Python具有以下特点:

(1)可移植性,由于Python的开源特性,Python被用于很多平台。

(2)可解释性,可以通过编译器和不同的标签和选项将源文件转换为计算机使用的语言。

(3)面向对象,可以是面向过程的,也可以是面向对象的[7][8]。

(4) 可扩展性

(5)大量的库,Python标准库非常庞大[9]

第3章 基于SVM和情感词典的情感分析方法 3.1 支持向量机

支持向量机是Vapnik等人提出的一种机器学习算法。 通过多年对统计学习理论的研究。 它使用非线性映射将原始数据映射到更高的维度。 支持向量和最优分割超平面是SVM算法的中心。 SVM通过寻找最大边缘超平面来确定SVM的支持向量和最佳分割超平面。

SVM算法中的支持向量和分裂超平面如图3-1所示:

在这里插入图片描述

图 3-1 SVM 分类示例

3.2 基于情感词典的情感分析方法

传统的基于情感词典的情感分析方法主要是基于情感词典来分析评论文本。 一些常用词作为基线情感词典,但很容易受到批评。 由于汉语表达形式的多样性,情感词在各个应用领域所能表达的情感也不尽相同。 因此,如果您使用某个字段的中文文本,请使用该字段的情感词典来分析情感。 这是必要的,也是合理的。

大致的算法和下图一样,但是我的图还是有一些缺陷,就是判断词性的时候没有显示循环。

在这里插入图片描述

图3-2 算法流程图

3.3 情感词典构建

名词、动词、形容词、副词和习语都可以用作情感词。 一般是根据文本中出现的情感词来分析文本的情感倾向。 随着互联网时代的到来,微博评论文本中出现了大量的网络术语和各种表情符号。 有些网络术语与当今情感词典中的情感词不同,但它们也表达了情感倾向。 微博评论的情感分析经常会遇到文本中的网络情感词[11]。 如何让机器对这些网络情感词做出情感倾向判断,将直接影响微博评论的情感分析结果。

3.4 支持向量机算法

SVM算法的最终推导实际上是为了解决二次规划问题。 顺序最小优化(SMO)算法是SVM中解决二次规划问题的算法。 SVM的优化目标是找到一个可以最大化间隔的平面。 因此,为了解决优化问题,可以采用拉格朗日乘子法来解决对偶问题。 这个对偶问题的另一个条件是KKT条件约束,它要求样本中的每个向量都满足约束。 但实际结果是没有合适的核函数可以让样本线性可分,所以为了解决这个问题,我们需要允许支持向量机在少量样本上出错,所以我们需要来确定新的KKT条件,所以这样的话,KKT公式[12]中容差因子C的值越小,允许不满足测年条件的样本就越多,最终的目的是计算一组最佳 alpha 和 b 值。 重复这个过程,直到达到满足我们需要的最优结果的条件,程序结束。

将上式代入SVM的对偶问题并消除求和项,我们只能得到一个关于 的二次规划问题。 该优化问题具有封闭式解并且可以快速计算。

SMO计算步骤:

(1)格式化所有拉格朗日乘子

(2)引入不满足KKT条件的乘数来求解二次规划问题。

(3) 重复上述步骤,直到所有乘数满足KKT条件。

SVM 的目标是找到一个超平面。 这个超平面可以很好的解决二分类问题。 因此,我们首先为每个分类样本点找到距离超平面最近的点,从而使该点与超平面的距离最大化。 最近的点是虚线绘制的。 由上述超平面公式计算,如果大于1,则属于交叉分类,如果小于0,则属于圆分类。

这些点可以很好地确定一个超平面,并且它们也可以用几何空间中的向量来表示。 那么这些可以用来确定超平面的向量就叫做支持向量(直接支持超平面的生成),所以这个算法就叫做支持向量机(SVM)。 (我觉得这个可以删掉,除了增加重复率之外没有什么用)

3.5 评价指标

如今,在情感分析领域,通过多种评价指标来评价分类器的分类质量。 主要包括:准确率、精确率、召回率和F1值。 描述分类器性能的各分类指标的计算公式如表1所示:

表1 分类器性能指标

在这里插入图片描述

第四章实验与分析 4.1 设计内容 4.1.1 数据

本文基于SVM的微博评论分析的数据集来自网络爬虫微博评论。 数据集中共有10680条数据。

4.1.2 设计流程图

该流程主要由以下几个部分组成。 首先,你需要知道爬虫的URL和内容,然后获取数据。 获得数据后导入系统,然后对数据进行处理,生成词汇表,然后构造向量矩进行特征选择和训练。 模型最终可以可视化到界面中进行分析。 具体流程如下图4-1所示:

在这里插入图片描述

图4.1 基于SVM的微博评论分析流程

4.2 实施过程 4.2.1 获取原始数据

获取原始数据就是根据特定的规则,智能、自动地检索互联网上的信息。 基于Python语言,利用网络爬虫模拟用户登录并获取微博热点事件的评论数据。 爬虫数据的URL是,

#_rnd1587618599670

界面如下图4-2所示,爬虫所需的部分代码如下图4-3所示:

在这里插入图片描述

图4-2 需要爬虫的界面

在这里插入图片描述

图4-3 爬虫流程

4.2.2 数据处理

导入原始数据,使用正则表达式过滤评论内容[13],将原始数据处理成易于处理的数据,并去除冗余空格。

在这里插入图片描述

图4-4 处理原始数据

4.2.3 文本预处理

预处理主要涉及文本的词性标注。 实际数据无噪声,处理后即可使用。 应以高质量数据为研究目标,以达到预期的高质量挖掘结果。 该方法使用jieba词云。 本系统主要对微博评论进行情感分析,以中文为主,因此不仅使用了jieba模块的分词技术,还进行了筛选。 主要步骤如下:

(1)首先需要加载词云生成工具,这里需要对中文单词进行处理。

(2)阅读要分析的文本并阅读格式

(3)词频统计

(4)获取前100条数据

(5)提取关键词并绘制词云

具体代码如下图4-5所示:

在这里插入图片描述

图4-5 绘制词云

生成的无背景图词云如下图4-6所示。

在这里插入图片描述

图4-6 词云生成结果

4.2.4 文本特征提取

文本挖掘时间和空间开销增加,中文输入大规模网络文本提取可能包含与决策无关的词文本特征提取,这就解决了提高文本分类和聚合的问题。 分类常用的特征提取方法有词频法、文档频率法、TF-IDF、信息增益、卡方检验、互信息等。

在本项目中,采用了以下方法:

① 对文本进行噪声过滤、分词、停用词过滤等预处理。

②计算每个文本中每个关键词的词频(TF),TF=N/M,其中M表示这段文本中有M个词,N表示该关键词在文本中出现的次数。

③计算每个文本中每个关键词的逆文本频率(IDF),IDF=log(D/Dw),其中D代表文本总数,Dw代表该关键词出现的文本数量。

④ 将每个关键词的TF值和IDF值合并为TF-IDF,TFIDFi.j=TFi.j*IDFi.j。

⑤ 根据TF-IDF值对每个文档的关键词进行排序,形成最终的向量。 情感分类,利用评论进行情感分类。

4.2.5 word2vec模型

其主要功能是自动判断评论中网络情感词的情感,剔除不必要、无意义的词。 情绪倾向的判断包括情绪极性和情绪强度两部分。 情绪极性表示情绪是积极的还是消极的,情绪强度是指对应情绪的强度。具体实现如下图4-7所示。

在这里插入图片描述

图4-7 正负情绪词典构建

4.2.6 训练SVM模型

加载训练好的正负word2vec模型后,就可以训练svm模型了。 具体代码如下图4-8所示。

在这里插入图片描述

图4-8 svm模型构建

4.2.7 情绪判断

准备工作完成后,就可以开始对个别句子进行情感判断了。 具体代码如下图4-9所示:

在这里插入图片描述

图4-9 情绪判断

根据运行结果,我们发现准确率为62.5%,如图4-10所示。

在这里插入图片描述

图 4-10 准确度

第五章 总结与展望

本设计的主要成果是设计并实现了一个基于SVM的微博评论分析与预测。 主要利用熟悉的开发工具进行研究,结合基础知识进行详细的设计和实现。

本次设计实现了以下两点:

(1)循序渐进、有序,设计思路不能随意改变。

(2)分析的目的是了解逻辑中心和过程。

通过本次评价分析研究发现,基于SVM的微博评论分析需要设计非常清晰的流程,特别是在特征选择和算法理解两个方面。 机器学习在微博评论分析中发挥着非常重要的作用。 微博评论的分类与分词、数据来源、特征选择、参数选择有很大关系。

该设计的缺点包括以下几点:

(1)在特征选择方面,了解和熟悉的方法很少,因此后续结果无法进一步改进,需要改进。

(2)程序的性能需要不断优化。

(3)支持向量机的算法没有学好。 当样本量不平衡时,就会出现预测不准确等其他问题。

在系统开发初期,您需要熟悉基于SVM的微博评论分析的工作流程,并掌握相应软件程序的基础知识。 尽管整个过程中存在许多问题,但从一开始总体理解就足够了,最终结果、详细设计和最终测试也是可以接受的。 在探索的过程中,我遇到了很多问题。 通过自己的努力,我在各大网站和图书馆查找了相关的知识背景资料和需求,并进一步询问了老师和同学。 当然,我也得到了很多专业的解决方案和好的建议。 最后,我通过自己的努力,整理出了适合本次设计的方案,包括流程设计方案、调试方案等,直到最终运行成功,我第一次感受到了学以致用的快乐。

随着系统设计接近尾声,目前正在设计开发的基于SVM的微博评论分析已初具规模。 虽然它们的功能还不是特别完善,但尽管付出了种种努力,感觉还是有一定程度的提升。 还有改进的空间,最终我们可以做得更好,我们会取得更大的进步。 希望能给它留下一个美好的结局,也给自己一个很好的交代。 在这个过程中,我学到了很多新知识。 同时我也发现自己的计算机专业知识储备还远远不够。 我需要继续学习,不断提高自己的整体职业素质。 这次应用研究给了我实践所学知识的机会,让我认识到实践的重要性。 过程很曲折,但在一一克服的过程中,我收获了很多,成长了很多,知识和经验都大大丰富了。

附录

参考

[1] 丁森华,邵家辉,李春艳,杨志瑞。 文本情感分析方法比较研究[J]. 广播电视信息,2020(04):92-96。

[2] 李丽华,胡小龙. 基于深度学习的文本情感分析[J]. 湖北大学学报(自然科学版), 2020, 42(02): 142-149.

[3]徐林红,丁坤,林远,杨阳。 基于机器学习算法的自动引文情感识别研究——以自然语言处理领域为例[J]. 现代情报, 2020, 40(01): 35-40+48 .

[4] 沉瑛,刘春阳,赵永义。 基于SVM算法的微博评论数据情感分析[J]. 数字通信世界,2020(01):111+117。

[5]吴国栋,刘国梁,张凯,屠丽静。 SVM与RNN在网络评论情感分析中的对比研究[J]. 上海工程技术大学学报, 2019, 33(04): 378-383.

[6] 颜俊超,赵志浩,赵锐。 基于机器学习的社交媒体文本情感分析研究[J]. 信息与计算机(理论版), 2019, 31(20): 44-47.

[7] 王鼎,杜红. 基于深度神经网络的影评情感分类研究[J]. 计算机与信息技术, 2019, 27(04): 18-20.

[8] 杨亮,周凤清,林鸿飞,尹福良,张一鸣。 基于情感常识的情感分析[J]. 中国信息科学学报, 2019, 33(06): 94-99.

[9]吴结胜,陆奎,王世兵。 基于多情感词典和SVM的影评情感分析[J]. 阜阳师范学院学报(自然科学版), 2019, 36(02): 68-72.

[10] 彭丹蕾. 产品评论情感分析系统的设计与实现[D]. 北京邮电大学,2019。

[11]克里斯蒂安·劳,巴特·约阿希姆·贝斯,马丁·斯库恩维尔德。 破坏、化解还是捍卫欧洲一体化? 欧盟政治化时期欧洲高管的公共沟通评估[J]. 欧洲政治研究杂志,2020,59(2)。

[12] 道格拉斯·卡斯特罗,丹妮尔·门德斯·泰姆·丹尼。 关键词: 巴西与中国, 经济关系, 情绪与内容分析, 实证评估科学研究出版,2020,11(01)。

[13]李文玲,金波,全羽. 基于深度学习的文本情感分析研究综述[J]. 科学研究出版,2020,07(03)。

情感文章_情感文章短文_情感文章素材网站

源代码下载链接

作者 admin