# MachineLearningInAction-Camp **Repository Path**: dspinxd/MachineLearningInAction-Camp ## Basic Information - **Project Name**: MachineLearningInAction-Camp - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-09-12 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 《机器学习实战》训练营 ## 课程资料 - 《机器学习实战》书籍:[英文版](https://pan.baidu.com/s/1rVWUcPZscdE27lBQwTpoBA),[中文版](https://pan.baidu.com/s/1a1wN3RKHQFP8GFKywVaHwQ) - [ApacheCN](http://ml.apachecn.org/mlia/) - [廖雪峰 Python3 教程](https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000) - 李航《统计学习方法》(链接:https://pan.baidu.com/s/1MSx407RuPCJt5KSej0Yqlg 密码:h74l) - 周志华《机器学习》(链接:https://pan.baidu.com/s/1wyqhvJHkI1zHph8RRsm9iw 密码:1475) - [机器学习该怎么入门?](https://www.zhihu.com/question/20691338/answer/446610161) ## 课程安排 整个机器学习内容包括:基础、分类、预测、无监督式学习、降维与分布式几大块进行。原则上一周时间完成两章内容,总共计划 12 周时间。 基础:第 1 章 分类: 第 1~7 章 预测:第 8~9 章 无监督式学习:第 10~12 章 降维与分布式:第 13~15 章 ### 1. 机器学习基础(第一周) - 1.1 Python 基础知识,Numpy、pandas、Matplotlib 等库的简介 - 1.2 开发环境的搭建:Python3 + Anaconda + Jupyter Notebook - 1.3 Jupyter Notebook 使用简介 ### 2. k-近邻算法(第一周) - 2.1 k-近邻算法概述 - 2.2 示例:使用 k-近邻算法改进网站的配对效果 - 2.3 示例:手写识别系统 ### 3. 决策树(第二周) - 3.1 决策树的构造 - *3.2 在 Python 中使用 Matplotlib 注解绘制树形图 - 3.3 测试和存储分类器 - 3.4 示例:使用决策树预测隐形眼镜类型 ### 4. 朴素贝叶斯(第二周) - 4.1 基于贝叶斯决策理论的分类方法 - 4.2 条件概率 - 4.3 使用条件概率来分类 - 4.4 使用朴素贝叶斯进行文档分类 - 4.5 使用 Python 进行文本分类 - 4.6 示例:使用朴素贝叶斯过滤垃圾邮件 ### 5. Logistic 回归(第三周) - 5.1 基于 Logistic 回归和 Sigmoid 函数的回归 - 5.2 基于最优化方法的最佳回归系数确定 - 5.3 示例:从疝气病症预测病马的死亡率 ### 6. 支持向量机(第三周) - 6.1 基于最大间隔分隔数据 - 6.2 寻找最大间隔 - 6.3 SMO 高效优化算法 ### 7. 支持向量机(第四周) - 6.4 利用完整 Platt SMO 算法加速优化 - 6.5 在复杂数据上应用核函数 - 6.6 手写识别问题 ### 8. 天池o2o预测赛(初级)(第四周) ### 9. 利用 AdaBoost 元算法提高分类性能(第五周) - 7.1 基于数据 多重抽样的分类器 - 7.2 训练算法:基于错误提升分类器的性能 - 7.3 基于单层决策树构建弱分类器 - 7.4 完整 AdaBoost 算法的实现 - 7.5 测试算法:基于 AdaBoost 的分类 - 7.6 示例:在一个难数据集上应用 AdaBoost - 7.7 非均衡分类问题 ### 10. 预测数值型数据:回归(第五周) - 8.1 用线性回归找到最佳拟合直线 - 8.2 局部加权线性回归 - 8.3 示例:预测鲍鱼的年龄 - 8.4 缩减系数来“理解”数据 - 8.5 权衡偏差和方差 - 8.6 示例:预测乐高玩具套装的价格 ### 11. 树回归(第六周) - 9.1 复杂数据的局部性建模 - 9.2 连续和离散型特征的树的构建 - 9.3 将 CART 算法用于回归 - 9.4 树减枝 - 9.5 模型树 - 9.6 示例:树回归于标准回归的比较 - *9.7 使用 Python 的 Tkinter 库创建 GUI ### 12. 利用 K-均值聚类算法对未标注数据分组(第六周) - 10.1 K-均值聚类算法 - 10.2 使用后处理来提高聚类性能 - 10.3 二分 K-均值算法 - 10.4 示例:对地图上的点进行聚类 ### 13. 使用 Apriori 算法进行关联分析(第七周) - 11.1 关联分析 - 11.2 Apriori 原理 - 11.3 使用Apriori 算法来发现频繁集 - 11.4 从频繁项集中挖掘关联规则 - 11.5 示例:发现国会投票中的模式 - 11.6 示例:发现毒蘑菇的相似特征 ### 14. 使用 FP-growth 算法来高效发现频繁项集(第七周) - 12.1 FP 树:用于编码数据集的有效方式 - 12.2 构建 FP 树 - 12.3 从一颗 FP 树中挖掘频繁项集 - 12.4 示例:在 Twitter 源中发现一些共现词 - 12.5 示例:从新闻网站点击流中挖掘 ### 15. 利用 PCA 来简化数据(第八周) - 13.1 降纬技术 - 13.2 PCA - 13.3 示例:利用 PCA 对半导体制造数据降维 ### 16. 利用 SVD 简化数据(第八周) - 14.1 SVD 的应用 - 14.2 矩阵分解 - 14.3 利用 Python 实现 SVD - 14.4 基于协调过滤的推荐引擎 - 14.5 示例:餐馆菜肴推荐引擎 - 14.6 示例:基于 SVD 的图像压缩 ### 17. 大数据与 MapReduce(第九周) - 15.1 MapReduce:分布式计算的框架 - 15.2 Hadoop 流 - *15.3 在 Amazon 网络服务上运行 Hadoop 程序 - 15.4 MapReduce 上的机器学习 - 15.5 在 Python 中使用 mrjob 来自动化 MapReduce - 15.6 示例:分布式 SVM 的 Pegasos 算法 - 15.7 你真的需要 MapReduce 吗? ### 天池 O2O 预测赛(高级)(第九周) ### 第 1~7 章总结(第十周) ### 第 8~9 章总结(第十一周) ### 第 10~12 章总结(第十一周) ### 第 13~15 章总结(第十二周) ### 其它机器学习算法(拓展,待定)(第十二周)