资料详情

基于分布式机器学习与可视化技术的垃圾短信智能分类系统设计与实现 毕业论文+源码及数据集+系统使用说明书+系统架构.vsdx

头像

Python

编号:1748

目录

1 引文

2 相关工作

3 逻辑回归算法实现

3.1文本处理

3.1.1分词

3.1.2去停用词

3.2特征提取

3.3 LR模型

3.3.1模型简介

3.4 实验结果

3.5 优缺点分析

4 GBDT算法实现

4.1算法思想

4.2实现

4.2.1分词及去停用词

4.2.2提取特征

4.2.3降维

4.2.4训练模型

4.3实验

4.3.1 sklearn.GBDT与lightgbm.lgbm对比

4.3.2 确定降维维度

4.3.3 确定弱分类器数

4.4 优缺点分析

5  SVM算法实现

5.1算法介绍

5.2实验过程

5.2.1 数据读取和存储

5.2.2 预处理与特征提取

5.2.3 降维

5.2.4 SVM分类

5.2.5 交叉验证

5.3优缺点分析

6 决策树算法实现

6.1算法思想

6.2算法实现

6.2.1导入短信数据并分词

6.2.2分割训练集和测试集并提取文本特征

6.2.3建立决策树分类器并进行训练

6.3实验结果

6.4优缺点分析及可能改进的方案

7 分布式机器学习算法实现

7.1环境准备

7.2 Hadoop环境搭建

7.3 Spark环境搭建

7.4 Spark MLlib逻辑回归实现

7.5 Spark MLlib实验结果

7.5 结论分析

8 可视化系统设计与实现

8.1开发环境

8.2系统结构

8.3整体设计

8.3.1 垃圾短信分类模块

8.3.2 算法指标展示模块

8.4数据库模块

8.4.1 前端展示

8.4.2 后端存储

8.5算法模块

1 引文

本次毕业设计的选题为垃圾短信分类。在老师所给的垃圾短信数据集上,分别实现了逻辑回归、决策树、SVM、GBDT这个四个分类算法。这四个算法都是老师上课提到的算法,通过动手实验,并进行对比,衡量了算法之间的优劣性,并给出了在不同情况下的选择理由。

搭建了Hadoop和Spark分布式环境,并使用Spark MLlib实现了分布式的逻辑回归算法。通过测试,对比了分布式实现机器学习算法和单机的区别。并分析了如何设计一个高效并节省空间的分布式机器学习算法。

最后设计并实现了一个可视化Web系统,展示了对老师所给垃圾短信数据集的分类结果,以及不同算法的正确率等指标对比。系统在47.104.152.193:8000/index/上部署,并在提交作用中附有使用说明文档。