联系客服
关注公众号
Python数据分析与建模+人工智能+机器学习经典算法 麦子......
(1)\01Python快速入门;目录中文件数:10个 ├─(1) 1.系列课程环境配置.mp4 ├─(2) 10.函数基础.mp4 ├─(3) 2.Python快速入门.mp4 ├─(4) 3.变量类型.mp4 ├─(5) 4.LIST基础.mp4 ├─(6) 5.List索引.mp4 ├─(7) 6.循环结构.mp4 ├─(8) 7.判断结构.mp4 ├─(9) 8.字典.mp4 ├─(10) 9.文件处理.mp4 (2)\02科学计算库Numpy;目录中文件数:5个 ├─(11) 1.数据结构.mp4 ├─(12) 2.基本操作].mp4 ├─(13) 3.矩阵属性.mp4 ├─(14) 4.矩阵操作.mp4 ├─(15) 5.常用函数.mp4 (3)\03数据分析处理库Pandas;目录中文件数:4个 ├─(16) 1.数据读取.mp4 ├─(17) 2.数据预处理.mp4 ├─(18) 3.常用函数.mp4 ├─(19) 4.Series结构.mp4 (4)\04可视化库Matplotlib;目录中文件数:5个 ├─(20) 1.折线图.mp4 ├─(21) 2.子图操作.mp4 ├─(22) 3.条形图与散点图.mp4 ├─(23) 4.柱形图与盒图.mp4 ├─(24) 5.细节设置.mp4 (5)\05Seaborn可视化库;目录中文件数:12个 ├─(25) 1.课程简介.mp4 ├─(26) 10.Facetgrid使用方法.mp4 ├─(27) 11.Facetgrid绘制多变量.mp4 ├─(28) 12.热度图绘制.mp4 ├─(29) 2.整体布局风格设置.mp4 ├─(30) 3.风格细节设置.mp4 ├─(31) 4.调色板.mp4 ├─(32) 5.调色板颜色设置.mp4 ├─(33) 6.单变量分析绘图.mp4 ├─(34) 7.回归分析绘图.mp4 ├─(35) 8.多变量分析绘图.mp4 ├─(36) 9.分类属性绘.mp4 ===============第二阶段=============== (1)\01回归算法;目录中文件数:7个 ├─(1) 1.机器学习概述(1).mp4 ├─(2) 2.回归算法.mp4 ├─(3) 3.线性回归误差原理推导.mp4 ├─(4) 4.目标函数求解.mp4 ├─(5) 5.逻辑回归原理.mp4 ├─(6) 6.梯度下降实例.mp4 ├─(7) 7.梯度下降原理.mp4 (2)\02决策树与随机森林;目录中文件数:8个 ├─(8) 1.决策树概述.mp4 ├─(9) 2.熵原理形象解读.mp4 ├─(10) 3.决策树构造实例.mp4 ├─(11) 4.信息增益.mp4 ├─(12) 5.信息增益率.mp4 ├─(13) 6.决策树剪枝.mp4 ├─(14) 7.随机森林.mp4 ├─(15) 8.案例决策树参数.mp4 (3)\03贝叶斯算法;目录中文件数:5个 ├─(16) 1.贝叶斯算法概述.mp4 ├─(17) 2.贝叶斯推导实例.mp4 ├─(18) 3.贝叶斯拼写纠错实例.mp4 ├─(19) 4.垃圾邮件过滤实例.mp4 ├─(20) 5.贝叶斯实现拼写检查器.mp4 (4)\04 Xgboost;目录中文件数:7个 ├─(21) 1.集成思想.mp4 ├─(22) 2.xgboost基本原理.mp4 ├─(23) 3.xgboost目标函数推导.mp4 ├─(24) 4.xgboost求解实例.mp4 ├─(25) 5.xgboost安装.mp4 ├─(26) 6.xgboost实战演示.mp4 ├─(27) 7.Adaboost算法概述.mp4 (5)\05支持向量机算法;目录中文件数:7个 ├─(28) 1.支持向量机要解决的问题.mp4 ├─(29) 2.支持向量机求解目标.mp4 ├─(30) 3.支持向量机目标函数求解.mp4 ├─(31) 4.支持向量机求解例子.mp4 ├─(32) 5.支持向量的作用.mp4 ├─(33) 6.软间隔支持向量机.mp4 ├─(34) 7.核函数变换.mp4 (6)\06时间序列AIRMA模型;目录中文件数:5个 ├─(35) 1.数据平稳性与差分法.mp4 ├─(36) 2.ARIMA模型.mp4 ├─(37) 3.相关函数评估方法.mp4 ├─(38) 4.建立ARIMA模型.mp4 ├─(39) 5.参数选择.mp4 (7)\07神经网络基础;目录中文件数:11个 ├─(40) 1.深度学习概述.mp4 ├─(41) 10.最优化问题细节.mp4 ├─(42) 11.反向传播.mp4 ├─(43) 2.挑战与常规套路.mp4 ├─(44) 3.用K近邻来进行分类.mp4 ├─(45) 4.超参数与交叉验证.mp4 ├─(46) 5.线性分类.mp4 ├─(47) 6.损失函数.mp4 ├─(48) 7.正则化惩罚项.mp4 ├─(49) 8.softmax分类器.mp4 ├─(50) 9.最优化形象解读.mp4 (8)\08神经网络架构;目录中文件数:4个 ├─(51) 1.整体架构.mp4 ├─(52) 2.实例演示.mp4 ├─(53) 3.过拟合解决方案.mp4 ├─(54) 4.感受神经网络的强大.mp4 (9)\09PCA降维与SVD矩阵分解;目录中文件数:4个 ├─(55) 1.PCA问题.mp4 ├─(56) 2.PCA降维实例.mp4 ├─(57) 3.SVD原理.mp4 ├─(58) 4.SVD推荐系统.mp4 (10)\10聚类算法;目录中文件数:3个 ├─(59) 1.聚类算法概述.mp4 ├─(60) 2.使用Kmeans进行图像压缩.mp4 ├─(61) 3.特征工程2.mp4 (11)\11推荐系统;目录中文件数:9个 ├─(62) 1.开场.mp4 ├─(63) 2.推荐系统应用.mp4 ├─(64) 3.推荐系统要完成的任务.mp4 ├─(65) 4.相似度计算.mp4 ├─(66) 5.基于用户的协同过滤.mp4 ├─(67) 6.基于物品的协同过滤.mp4 ├─(68) 7.隐语义模型.mp4 ├─(69) 8.隐语义模型求解.mp4 ├─(70) 9.模型评估标准.mp4 (12)\12Word2Vec;目录中文件数:11个 ├─(71) 1.开篇.mp4 ├─(72) 10.锑度上升求解.mp4 ├─(73) 11.负采样模型.mp4 ├─(74) 2.自然语言处理与深度学习.mp4 ├─(75) 3.语言模型.mp4 ├─(76) 4.N-gram模型.mp4 ├─(77) 5.词向量.mp4 ├─(78) 6.神经网络模型.mp4 ├─(79) 7.Hierarchical Softmax.mp4 ├─(80) 8.CBOW模型实例.mp4 ├─(81) 9.CBOW求解目标.mp4

机器学习 2019-03-30 252人浏览 13人下载

Udacity机器学习纳米学位工程师系列课程......
Udacity 和 Google、Facebook、亚马逊等全球领先企业合作推出的纳米学位认证项目,将学员培养为世界一流的网站开发者、数据分析师和移动开发者。Udacity学员将通过一系列的在线课程和实战项目,成为有能力通过技术改变世界的抢手人才。【课程大纲】1 - 欢迎学习机器学习纳米学位工程师课程欢迎学习机器学习工程师从人工智能到机器学习探索性项目-泰坦尼克号幸存者分析2 - 模型评估和验证共154课时3 - 监督学习-构建学生干预系统项目描述监督学习简介决策树更多决策树回归和分类回归更多回归神经网络神经网络迷你项目内核方法和SVMSVM基于实例的学习朴素贝叶斯贝叶斯学习贝叶斯推理贝叶斯NLP迷你项目集成B&B构建学生干预系统4 - 非监督学习-创建客户细分非监督学习简介聚类更多聚类聚类迷你项目特征缩放特征选择PCAPCA迷你项目特征转换结尾项目5 - 强化学习-训练智能出租车学会驾驶强化学习简介MARKOV决策过程强化学习博弈论更多信息 博弈论项目6 - kaggleKaggle -采访Ben Hamnerlaggle挑战7 - 机器学习工程师模拟面试你了解公司的哪些信息?在工作场所,你以什么作为自己的动力如何应对失败?工作中的问题以及你是如何解决的机器学习面试排练获得面试面试中的期望

机器学习 2019-03-15 307人浏览 9人下载

高端实战 Python数据分析与机器学习实战 Numpy/P......
│  ├<01-Python科学计算库-Numpy> │  │  ├课时01.课程介绍(主题与大纲).flv │  │  ├课时02.机器学习概述.flv │  │  ├课时03.使用Anaconda安装python环境.flv │  │  ├课时04.课程数据,代码,PPT(在参考资料界面).swf │  │  ├课时05.科学计算库Numpy.flv │  │  ├课时06.Numpy基础结构.flv │  │  ├课时07.Numpy矩阵基础.flv_d.flv │  │  ├课时08.Numpy常用函数.flv_d.flv │  │  ├课时09.矩阵常用操作.flv_d.flv │  │  └课时10.不同复制操作对比.flv_d.flv │  ├<02-python数据分析处理库-Pandas> │  │  ├课时11.Pandas数据读取.flv │  │  ├课时12.Pandas索引与计算.flv_d.flv │  │  ├课时13.Pandas数据预处理实例.flv_d.flv │  │  ├课时14.Pandas常用预处理方法.flv_d.flv │  │  ├课时15.Pandas自定义函数.flv_d.flv │  │  └课时16.Series结构.flv_d.flv │  ├<03-Python数据可视化库-Matplotlib> │  │  ├课时17.折线图绘制.flv │  │  ├课时18.子图操作.flv_d.flv │  │  ├课时19.条形图与散点图.flv_d.flv │  │  ├课时20.柱形图与盒图.flv_d.flv │  │  └课时21.细节设置.flv_d.flv │  ├<04-Python可视化库Seaborn> │  │  ├课时22.Seaborn简介.flv │  │  ├课时23.整体布局风格设置.flv_d.flv │  │  ├课时24.风格细节设置.flv_d.flv │  │  ├课时25.调色板.flv_d.flv │  │  ├课时26.调色板.flv_d.flv │  │  ├课时27.调色板颜色设置.flv_d.flv │  │  ├课时28.单变量分析绘图.flv_d.flv │  │  ├课时29.回归分析绘图.flv_d.flv │  │  ├课时30.多变量分析绘图.flv_d.flv │  │  ├课时31.分类属性绘图.flv_d.flv │  │  ├课时32.Facetgrid使用方法.flv_d.flv │  │  └课时33.Facetgrid绘制多变量.flv_d.flv │  ├<05-回归算法> │  │  ├课时34.热度图绘制.flv_d.flv │  │  ├课时35.回归算法综述.flv_d.flv │  │  ├课时36.回归误差原理推导.flv_d.flv │  │  ├课时37.回归算法如何得出最优解.flv_d.flv │  │  ├课时38.基于公式推导完成简易线性回归.flv_d.flv │  │  └课时39.逻辑回归与梯度下降.flv_d.flv │  ├<06-决策树> │  │  ├课时40.使用梯度下降求解回归问题.flv_d.flv │  │  ├课时41.决策树算法综述.flv_d.flv │  │  ├课时42.决策树熵原理.flv_d.flv │  │  ├课时43.决策树构造实例.flv_d.flv │  │  ├课时44.信息增益原理.flv_d.flv │  │  ├课时45.信息增益率的作用.flv_d.flv │  │  ├课时46.决策树剪枝策略.flv_d.flv │  │  └课时47.随机森林模型.flv_d.flv │  ├<07-贝叶斯算法> │  │  ├课时48.决策树参数详解.flv_d.flv │  │  ├课时49.贝叶斯算法概述.flv_d.flv │  │  ├课时50.贝叶斯推导实例.flv_d.flv │  │  ├课时51.贝叶斯拼写纠错实例.flv_d.flv │  │  └课时52.垃圾邮件过滤实例.flv_d.flv │  ├<08-支持向量机> │  │  ├课时53.贝叶斯实现拼写检查器.flv_d.flv │  │  ├课时54.支持向量机要解决的问题.flv_d.flv │  │  ├课时55.支持向量机目标函数.flv_d.flv │  │  ├课时56.支持向量机目标函数求解.flv_d.flv │  │  ├课时57.支持向量机求解实例.flv_d.flv │  │  ├课时58.支持向量机软间隔问题.flv_d.flv │  │  └课时59.支持向量核变换.flv_d.flv │  ├<09-神经网络> │  │  ├课时60.SMO算法求解支持向量机.flv_d.flv │  │  ├课时61.初识神经网络.flv_d.flv │  │  ├课时62.计算机视觉所面临的挑战.flv_d.flv │  │  ├课时63.K近邻尝试图像分类.flv_d.flv │  │  ├课时64.超参数的作用.flv_d.flv │  │  ├课时65.线性分类原理.flv_d.flv │  │  ├课时66.神经网络-损失函数.flv_d.flv │  │  ├课时67.神经网络-正则化惩罚项.flv_d.flv │  │  ├课时68.神经网络-softmax分类器.flv_d.flv │  │  ├课时69.神经网络-最优化形象解读.flv_d.flv │  │  ├课时70.神经网络-梯度下降细节问题.flv_d.flv │  │  ├课时71.神经网络-反向传播.flv_d.flv │  │  ├课时72.神经网络架构.flv_d.flv │  │  ├课时73.神经网络实例演示.flv_d.flv │  │  └课时74.神经网络过拟合解决方案.flv_d.flv │  ├<10-Xgboost集成算法> │  │  ├课时75.感受神经网络的强大.flv_d.flv │  │  ├课时76.集成算法思想.flv_d.flv │  │  ├课时77.xgboost基本原理.flv_d.flv │  │  ├课时78.xgboost目标函数推导.flv_d.flv │  │  ├课时79.xgboost求解实例.flv_d.flv │  │  ├课时80.xgboost安装.flv_d.flv │  │  └课时81.xgboost实战演示.flv_d.flv │  ├<11-自然语言处理词向量模型-Word2Vec> │  │  ├课时82.Adaboost算法概述.flv_d.flv │  │  ├课时83.自然语言处理与深度学习加微信ff1318860.flv_d.flv │  │  ├课时84.语言模型.flv_d.flv │  │  ├课时85.-N-gram模型.flv_d.flv │  │  ├课时86.词向量.flv_d.flv │  │  ├课时87.神经网络模型.flv_d.flv │  │  ├课时88.Hierarchical.Softmax.flv_d.flv │  │  ├课时89.CBOW模型实例.flv_d.flv │  │  ├课时90.CBOW求解目标.flv_d.flv │  │  └课时91.梯度上升求解.flv_d.flv │  ├<12-K近邻与聚类> │  │  ├课时92.负采样模型.flv_d.flv │  │  ├课时93.无监督聚类问题.flv_d.flv │  │  ├课时94.聚类结果与离群点分析.flv_d.flv │  │  ├课时95.K-means聚类案例对NBA球员进行评估.flv_d.flv │  │  ├课时96.使用Kmeans进行图像压缩.flv_d.flv │  │  └课时97.K近邻算法原理.flv_d.flv │  ├<13-PCA降维与SVD矩阵分解> │  │  ├课时100.PCA实例.flv_d.flv │  │  ├课时101.SVD奇异值分解原理.flv_d.flv │  │  ├课时98.K近邻算法代码实现.flv_d.flv │  │  └课时99.PCA基本原理.flv_d.flv │  ├<14-scikit-learn模型建立与评估> │  │  ├课时102.SVD推荐系统应用实例.flv_d.flv │  │  ├课时103.使用python库分析汽车油耗效率.flv │  │  ├课时104.使用scikit-learn库建立回归模型.flv_d.flv │  │  ├课时105.使用逻辑回归改进模型效果.flv_d.flv │  │  ├课时106..模型效果衡量标准.flv_d.flv │  │  ├课时107.ROC指标与测试集的价值.flv_d.flv │  │  └课时108.交叉验证.flv_d.flv │  ├<15-Python库分析科比生涯数据> │  │  ├课时109.多类别问题.flv_d.flv │  │  ├课时110.Kobe.Bryan生涯数据读取与简介.flv │  │  ├课时111.特征数据可视化展示.flv_d.flv │  │  └课时112.数据预处理.flv_d.flv │  ├<16-机器学习项目实战-泰坦尼克获救预测> │  │  ├课时113.使用Scikit-learn建立模型.flv_d.flv │  │  ├课时114.船员数据分析.flv │  │  ├课时115.数据预处理.flv_d.flv │  │  ├课时116.使用回归算法进行预测.flv_d.flv │  │  └课时117.使用随机森林改进模型.flv_d.flv │  ├<17-机器学习项目实战-交易数据异常检测> │  │  ├课时118.随机森林特征重要性分析.flv_d.flv │  │  ├课时119.案例背景和目标.flv_d.flv │  │  ├课时120.样本不均衡解决方案.flv_d.flv │  │  ├课时121.下采样策略.flv_d.flv │  │  ├课时122.交叉验证.flv_d.flv │  │  ├课时123.模型评估方法.flv_d.flv │  │  ├课时124.正则化惩罚.flv_d.flv │  │  ├课时125.逻辑回归模型.flv_d.flv │  │  ├课时126.混淆矩阵.flv_d.flv │  │  └课时127.逻辑回归阈值对结果的影响.flv_d.flv │  ├<18-Python文本数据分析:新闻分类任务> │  │  ├课时128.SMOTE样本生成策略.flv_d.flv │  │  ├课时129.文本分析与关键词提取.flv_d.flv │  │  ├课时130.相似度计算.flv_d.flv │  │  ├课时131.新闻数据与任务简介.flv_d.flv │  │  ├课时132.TF-IDF关键词提取.flv_d.flv │  │  └课时133.LDA建模.flv_d.flv │  ├<19-Python时间序列分析> │  │  ├课时134.基于贝叶斯算法进行新闻分类.flv_d.flv │  │  ├课时135.章节简介.flv │  │  ├课时136.Pandas生成时间序列.flv_d.flv │  │  ├课时137.Pandas数据重采样.flv_d.flv │  │  ├课时138.Pandas滑动窗口.flv_d.flv │  │  ├课时139.数据平稳性与差分法.flv_d.flv │  │  ├课时140.ARIMA模型.flv_d.flv │  │  ├课时141.相关函数评估方法.flv_d.flv │  │  ├课时142.建立ARIMA模型.flv_d.flv │  │  ├课时143.参数选择.flv_d.flv │  │  ├课时144.股票预测案例.flv_d.flv │  │  └课时145.使用tsfresh库进行分类任务.flv_d.flv │  ├<20-使用Gensim库构造中文维基百度数据词向量模型> │  │  ├课时146.维基百科词条EDA.flv_d.flv │  │  ├课时147.使用Gensim库构造词向量.flv_d.flv │  │  ├课时148.维基百科中文数据处理.flv_d.flv │  │  └课时149.Gensim构造word2vec模型.flv_d.flv │  ├<21-机器学习项目实战-贷款申请最大化利润> │  │  ├课时150.测试模型相似度结果.flv_d.flv │  │  ├课时151.数据清洗过滤无用特征.flv_d.flv │  │  ├课时152.数据预处理.flv_d.flv │  │  └课时153.获得最大利润的条件与做法.flv_d.flv │  ├<22-机器学习项目实战-用户流失预警> │  │  ├课时154.预测结果并解决样本不均衡问题.flv_d.flv │  │  ├课时155.数据背景介绍.flv_d.flv │  │  ├课时156.数据预处理.flv_d.flv │  │  ├课时157.尝试多种分类器效果.flv_d.flv │  │  └课时158.结果衡量指标的意义.flv_d.flv │  ├<23-探索性数据分析-足球赛事数据集> │  │  ├课时159.应用阈值得出结果.flv_d.flv │  │  ├课时160.内容简介.flv_d.flv │  │  ├课时161.数据背景介绍.flv │  │  ├课时162.数据读取与预处理.flv_d.flv │  │  ├课时163.数据切分模块.flv_d.flv │  │  ├课时164.缺失值可视化分析.flv_d.flv │  │  ├课时165.特征可视化展示.flv_d.flv │  │  ├课时166.多特征之间关系分析.flv_d.flv │  │  └课时167.报表可视化分析.flv_d.flv │  ├<24-探索性数据分析-农粮组织数据集> │  │  ├课时168.红牌和肤色的关系.flv_d.flv │  │  ├课时169.数据背景简介.flv_d.flv │  │  ├课时170.数据切片分析.flv_d.flv │  │  ├课时171.单变量分析.flv_d.flv │  │  ├课时172.峰度与偏度.flv_d.flv │  │  ├课时173.数据对数变换.flv_d.flv │  │  └课时174.数据分析维度.flv_d.flv │  ├<25-机器学习项目实战-HTTP日志聚类分析> │  │  ├课时175.变量关系可视化展示.flv_d.flv │  │  ├课时176.建立特征工程.flv_d.flv │  │  ├课时177.特征数据预处理.flv_d.flv │  │  └课时178.应用聚类算法得出异常IP点.flv_d.flv

机器学习 2019-03-30 223人浏览 8人下载

2018人工智能 XX学院 机器学习升级版V 第五期......
升级版V的内容特色: 1.每个算法模块按照“原理讲解→分析数据→自己动手实现→特征与调参”的顺序,“原理加实践,顶天立地”。 2.拒绝简单的“调包”——增加3次“机器学习的角度看数学”和3次“Python数据清洗和特征提取”,提升学习深度、降低学习坡度。 3.增加网络爬虫的原理和编写,从获取数据开始,重视将实践问题转换成实际模型的能力,分享工作中的实际案例或Kaggle案例:广告销量分析、环境数据异常检测和分析、数字图像手写体识别、Titanic乘客存活率预测、用户-电影推荐、真实新闻组数据主题分析、中文分词、股票数据特征分析等。 4.强化矩阵运算、概率论、数理统计的知识运用,掌握机器学习根本。 5.阐述机器学习原理,提供配套源码和数据;确保“懂推导,会实现”。 6.删去过于晦涩的公式推导,代之以直观解释,增强感性理解。 7.对比不同的特征选择带来的预测效果差异。 8.重视项目实践(如工业实践、Kaggle等),重视落地。思考不同算法之间的区别和联系,提高在实际工作中选择算法的能力。 9.涉及和讲解的部分Python库有:Numpy、Scipy、matplotlib、Pandas、scikit-learn、XGBoost、libSVM、LDA、Gensim、NLTK、HMMLearn,涉及的其他“小”库在课程的实践环节会逐一讲解。 课程大纲:包括视频和课件。 第一课:机器学习的数学基础1 - 数学分析 1.&nbsp;&nbsp;机器学习的一般方法和横向比较 2.&nbsp;&nbsp;数学是有用的:以SVD为例 3.&nbsp;&nbsp;机器学习的角度看数学 4.&nbsp;&nbsp;复习数学分析 5.&nbsp;&nbsp;直观解释常数e 6.&nbsp;&nbsp;导数/梯度 7.&nbsp;&nbsp;随机梯度下降 8.&nbsp;&nbsp;Taylor展式的落地应用 9.&nbsp;&nbsp;gini系数 10. 凸函数 11. Jensen不等式 12. 组合数与信息熵的关系 第二课:机器学习的数学基础2 - 概率论与贝叶斯先验 1.&nbsp;&nbsp;概率论基础 2.&nbsp;&nbsp;古典概型 3.&nbsp;&nbsp;贝叶斯公式 4.&nbsp;&nbsp;先验分布/后验分布/共轭分布 5.&nbsp;&nbsp;常见概率分布 6.&nbsp;&nbsp;泊松分布和指数分布的物理意义 7.&nbsp;&nbsp;协方差(矩阵)和相关系数 8.&nbsp;&nbsp;独立和不相关 9.&nbsp;&nbsp;大数定律和中心极限定理的实践意义 10.&nbsp;&nbsp;深刻理解最大似然估计MLE和最大后验估计MAP 11.&nbsp;&nbsp;过拟合的数学原理与解决方案 第三课:机器学习的数学基础3 - 矩阵和线性代数 1.&nbsp;&nbsp;线性代数在数学科学中的地位 2.&nbsp;&nbsp;马尔科夫模型 3.&nbsp;&nbsp;矩阵乘法的直观表达 4.&nbsp;&nbsp;状态转移矩阵 5.&nbsp;&nbsp;矩阵和向量组 6.&nbsp;&nbsp;特征向量的思考和实践计算 7.&nbsp;&nbsp;QR分解 8.&nbsp;&nbsp;对称阵、正交阵、正定阵 9.&nbsp;&nbsp;数据白化及其应用 10.&nbsp;&nbsp;向量对向量求导 11.&nbsp;&nbsp;标量对向量求导 12.&nbsp;&nbsp;标量对矩阵求导 第四课:Python基础1 - Python及其数学库 1.&nbsp;&nbsp;解释器Python2.7与IDE:Anaconda/Pycharm 2.&nbsp;&nbsp;Python基础:列表/元组/字典/类/文件 3.&nbsp;&nbsp;Taylor展式的代码实现 4.&nbsp;&nbsp;numpy/scipy/matplotlib/panda的介绍和典型使用 5.&nbsp;&nbsp;多元高斯分布 6.&nbsp;&nbsp;泊松分布、幂律分布 7.&nbsp;&nbsp;典型图像处理 8.&nbsp;&nbsp;蝴蝶效应 9.&nbsp;&nbsp;分形 第五课:Python基础2 - 机器学习库 1.&nbsp;&nbsp;scikit-learn的介绍和典型使用 2.&nbsp;&nbsp;损失函数的绘制 3.&nbsp;&nbsp;多种数学曲线 4.&nbsp;&nbsp;多项式拟合 5.&nbsp;&nbsp;快速傅里叶变换FFT 6.&nbsp;&nbsp;奇异值分解SVD 7.&nbsp;&nbsp;Soble/Prewitt/Laplacian算子与卷积网络 8.&nbsp;&nbsp;卷积与(指数)移动平均线 9.&nbsp;&nbsp;股票数据分析 第六课:Python基础3 - 数据清洗和特征选择 1.&nbsp;&nbsp;实际生产问题中算法和特征的关系 2.&nbsp;&nbsp;股票数据的特征提取和应用 3.&nbsp;&nbsp;一致性检验 4.&nbsp;&nbsp;缺失数据的处理 5.&nbsp;&nbsp;环境数据异常检测和分析 6.&nbsp;&nbsp;模糊数据查询和数据校正方法、算法、应用 7.&nbsp;&nbsp;朴素贝叶斯用于鸢尾花数据 8.&nbsp;&nbsp;GaussianNB/MultinomialNB/BernoulliNB 9.&nbsp;&nbsp;朴素贝叶斯用于18000+篇/Sogou新闻文本的分类 第七课: 回归 1.&nbsp;&nbsp;线性回归 2.&nbsp;&nbsp;Logistic/Softmax回归 3.&nbsp;&nbsp;广义线性回归 4.&nbsp;&nbsp;L1/L2正则化 5.&nbsp;&nbsp;Ridge与LASSO 6.&nbsp;&nbsp;Elastic Net 7.&nbsp;&nbsp;梯度下降算法:BGD与SGD 8.&nbsp;&nbsp;特征选择与过拟合 第八课:Logistic回归 1.&nbsp;&nbsp;Sigmoid函数的直观解释 2.&nbsp;&nbsp;Softmax回归的概念源头 3.&nbsp;&nbsp;Logistic/Softmax回归 4.&nbsp;&nbsp;最大熵模型 5.&nbsp;&nbsp;K-L散度 6.&nbsp;&nbsp;损失函数 7.&nbsp;&nbsp;Softmax回归的实现与调参 第九课:回归实践 1.&nbsp;&nbsp;机器学习sklearn库介绍 2.&nbsp;&nbsp;线性回归代码实现和调参 3.&nbsp;&nbsp;Softmax回归代码实现和调参 4.&nbsp;&nbsp;Ridge回归/LASSO/Elastic Net 5.&nbsp;&nbsp;Logistic/Softmax回归 6.&nbsp;&nbsp;广告投入与销售额回归分析 7.&nbsp;&nbsp;鸢尾花数据集的分类 8.&nbsp;&nbsp;交叉验证 9.&nbsp;&nbsp;数据可视化 第十课:决策树和随机森林 1.&nbsp;&nbsp;熵、联合熵、条件熵、KL散度、互信息 2.&nbsp;&nbsp;最大似然估计与最大熵模型 3.&nbsp;&nbsp;ID3、C4.5、CART详解 4.&nbsp;&nbsp;决策树的正则化 5.&nbsp;&nbsp;预剪枝和后剪枝 6.&nbsp;&nbsp;Bagging 7.&nbsp;&nbsp;随机森林 8.&nbsp;&nbsp;不平衡数据集的处理 9.&nbsp;&nbsp;利用随机森林做特征选择 10. 使用随机森林计算样本相似度 11. 数据异常值检测 第十一课:随机森林实践 1.&nbsp;&nbsp;随机森林与特征选择 2.&nbsp;&nbsp;决策树应用于回归 3.&nbsp;&nbsp;多标记的决策树回归 4.&nbsp;&nbsp;决策树和随机森林的可视化 5.&nbsp;&nbsp;葡萄酒数据集的决策树/随机森林分类 6.&nbsp;&nbsp;波士顿房价预测 第十二课:提升 1.&nbsp;&nbsp;提升为什么有效 2.&nbsp;&nbsp;梯度提升决策树GBDT 3.&nbsp;&nbsp;XGBoost算法详解 4.&nbsp;&nbsp;Adaboost算法 5.&nbsp;&nbsp;加法模型与指数损失 第十三课:提升实践 1.&nbsp;&nbsp;Adaboost用于蘑菇数据分类 2. Adaboost与随机森林的比较 3.&nbsp;&nbsp;XGBoost库介绍 4.&nbsp;&nbsp;Taylor展式与学习算法 5.&nbsp;&nbsp;KAGGLE简介 6.&nbsp;&nbsp;泰坦尼克乘客存活率估计 第十四课:SVM 1.&nbsp;&nbsp;线性可分支持向量机 2.&nbsp;&nbsp;软间隔的改进 3.&nbsp;&nbsp;损失函数的理解 4.&nbsp;&nbsp;核函数的原理和选择 5.&nbsp;&nbsp;SMO算法 6.&nbsp;&nbsp;支持向量回归SVR 第十五课:SVM实践 1.&nbsp;&nbsp;libSVM代码库介绍 2.&nbsp;&nbsp;原始数据和特征提取 3.&nbsp;&nbsp;调用开源库函数完成SVM 4.&nbsp;&nbsp;葡萄酒数据分类 5.&nbsp;&nbsp;数字图像的手写体识别 6.&nbsp;&nbsp;SVR用于时间序列曲线预测 7.&nbsp;&nbsp;SVM、Logistic回归、随机森林三者的横向比较 第十六课:聚类(上) 1.&nbsp;&nbsp;各种相似度度量及其相互关系 2.&nbsp;&nbsp;Jaccard相似度和准确率、召回率 3.&nbsp;&nbsp;Pearson相关系数与余弦相似度 4.&nbsp;&nbsp;K-means与K-Medoids及变种 5.&nbsp;&nbsp;AP算法(Sci07)/LPA算法及其应用 第十七课:聚类(下) 1.&nbsp;&nbsp;密度聚类DBSCAN/DensityPeak(Sci14) 2.&nbsp;&nbsp;DensityPeak(Sci14) 3.&nbsp;&nbsp;谱聚类SC 4.&nbsp;&nbsp;聚类评价AMI/ARI/Silhouette 5.&nbsp;&nbsp;LPA算法及其应用 第十八课:聚类实践 1.&nbsp;&nbsp;K-Means++算法原理和实现 2.&nbsp;&nbsp;向量量化VQ及图像近似 3.&nbsp;&nbsp;并查集的实践应用 4.&nbsp;&nbsp;密度聚类的代码实现 5.&nbsp;&nbsp;谱聚类用于图片分割 第十九课:EM算法 1.&nbsp;&nbsp;最大似然估计 2.&nbsp;&nbsp;Jensen不等式 3.&nbsp;&nbsp;朴素理解EM算法 4.&nbsp;&nbsp;精确推导EM算法 5.&nbsp;&nbsp;EM算法的深入理解 6.&nbsp;&nbsp;混合高斯分布 7.&nbsp;&nbsp;主题模型pLSA 第二十课:EM算法实践 1.&nbsp;&nbsp;多元高斯分布的EM实现 2.&nbsp;&nbsp;分类结果的数据可视化 3.&nbsp;&nbsp;EM与聚类的比较 4.&nbsp;&nbsp;Dirichlet过程EM 5.&nbsp;&nbsp;三维及等高线等图件的绘制 6.&nbsp;&nbsp;主题模型pLSA与EM算法 第二十一课:主题模型LDA 1.&nbsp;&nbsp;贝叶斯学派的模型认识 2.&nbsp;&nbsp;共轭先验分布 3.&nbsp;&nbsp;Dirichlet分布 4.&nbsp;&nbsp;Laplace平滑 5.&nbsp;&nbsp;Gibbs采样详解 第二十二课:LDA实践 1.&nbsp;&nbsp;网络爬虫的原理和代码实现 2.&nbsp;&nbsp;停止词和高频词 3.&nbsp;&nbsp;动手自己实现LDA 4.&nbsp;&nbsp;LDA开源包的使用和过程分析 5.&nbsp;&nbsp;Metropolis-Hastings算法 6.&nbsp;&nbsp;MCMC 7.&nbsp;&nbsp;LDA与word2vec的比较 第二十三课:隐马尔科夫模型HMM 1.&nbsp;&nbsp;概率计算问题 2.&nbsp;&nbsp;前向/后向算法 3.&nbsp;&nbsp;HMM的参数学习 4.&nbsp;&nbsp;Baum-Welch算法详解 5.&nbsp;&nbsp;Viterbi算法详解 6.&nbsp;&nbsp;隐马尔科夫模型的应用优劣比较 第二十四课:HMM实践 1.&nbsp;&nbsp;动手自己实现HMM用于中文分词 2.&nbsp;&nbsp;多个语言分词开源包的使用和过程分析 3.&nbsp;&nbsp;文件数据格式UFT-8、Unicode 4.&nbsp;&nbsp;停止词和标点符号对分词的影响 5.&nbsp;&nbsp;前向后向算法计算概率溢出的解决方案 6.&nbsp;&nbsp;发现新词和分词效果分析 7.&nbsp;&nbsp;高斯混合模型HMM 8.&nbsp;&nbsp;GMM-HMM用于股票数据特征提取

机器学习 2019-01-30 252人浏览 6人下载

清华大学机器学习课程
授课对象: 任何对机器学习有兴趣,想了解基本原理,前沿课题和应用实践的大学计算机系或相关科系的高年级本科生,研究生,以及青年教师,和在高科技企业中从事相关工作的技术人员。 主讲教师:余凯博士与张潼教授 讲课内容: Day 1 lecture 1: Introduction to ML and review of linear algebra, probability, statistics (kai) lecture 2: linear model (tong) lecture 3: overfitting and regularization (tong) lecture 4: linear classification (kai) Day 2 lecture 5: basis expansion and kernel methods (kai) lecture 6: model selection and evaluation (kai) lecture 7: model combination (tong) lecture 8: boosting and bagging (tong) Day 3 lecture 9: overview of learning theory (tong) lecture 10: optimization in machine learning (tong) lecture 11: online learning (tong) lecture 12: sparsity models (tong) Day 4 lecture 13: introduction to graphical models (kai) lecture 14: structured learning (kai) lecture 15: feature learning and deep learning (kai) lecture 16: transfer learning and semi supervised learning (kai) Day 5 lecture 17: matrix factorization and recommendations (kai) lecture 18: learning on images (kai) lecture 19: learning on the web (tong) lecture 20: summary and road ahead (tong) 第1课:绪论课 机器学习中3个比不可少的元素,数据,模型和算法。现在数据来源比较广泛,每天都可以产生T级以上的数据。模型的话就是机器学习课程中需要研究的各种模型,算法就是怎样通过数据和模型来学习出模型中的参数。但是余老师在课堂上提出一个观点就是这3个元素都不重要,最重要的是需求,一旦有了需求,就会采用各种方法取求解问题了。不愧是百度公司的技术副总监。另外机器学习的主要应用场合包括计算机视觉,语音识别,自然语音处理,搜索,推荐系统,无人驾驶,问答系统等。 第2课:线性模型 线性回归模型需要解决下面3个问题: 1. 怎样从训练数据估计线性模型的参数?即截距和斜率。 2. 学习到的线性模型性能怎样?我们是否可以找到更好的模型? 3. 模型中2个参数的重要性怎么估计? 解决第1个问题是一个优化问题,即求得使损失函数最小的参数。这里的损失函数是平方项的,也称为线性最小二乘思想。线性模型的表达式为: 2012111215401250.png (6.32 KB, 下载次数: 123) 下载附件 2016-4-19 23:22 上传 其中噪声参数为0均值的高斯噪声。如果后面求出的噪声不是一个均值为0,方差相同的类似高斯分布的随机变量,则说明这个模型还可以被改进。比如说将x首先映射到非线性函数中去,然后对非线性函数用最小二乘法做线性回归。至于怎样得到非线性映射函数f(x)则要么通过人为观察推测,要么通过机器学习中的特征学习来自动获得。 更广义的线性模型并不一定是一个线性方程。只是其参数可能是线性的。线性模型能够模拟非线性函数。 残差可以看做是噪声的近似。但是一般来说残差要比噪声小。所以在线性模型中,噪声项就可以用残差来估计,不过其分母不是1/n,而是1/(n-p),因为需要达一个无偏估计。 特征向量元素属性的重要性评价常见的有以下2种方法:第一是抽掉一个特征想,然后计算其残差变化值与全部特征都用上的比值,所得到的分数为F-score,F-score越大,说明该属性越重要。第2种方法是采用t分布来假设检验得到Z-score,即假设对应特征属性不存在(即其值为0)时,出现样本数据的概率为Z-score,如果Z-score越大,说明该属性越不重要。 第3课:过拟合和规则项 Regularization中文意思是规则,指的是在overfitting和underfitting之间做平衡,通过限制参数空间来控制模型的复杂度。测试误差和训练误差之间差一个规则项,其公式为: 2012111215395325.png (18.97 KB, 下载次数: 115) 下载附件 2016-4-19 23:22 上传 模型越复杂说明模型越不稳定,学习到的目标函数越不光滑,也就越容易over-fitting。所以需要控制模型的复杂度,一般来说有2种方法,即减少模型中参数的个数或者减小参数的空间大小,目前用得最多的就是减小参数的空间大小,是通过规则项达到的。规则项的引入同时也需要引入一个调节的参数,该参数的大小一般通过交叉验证获得。如果规则项是2次的,则也称为ridge回归,规则项是一次的则称为lasso回归。Ridge回归的优点是解比较稳定,且允许参数的个数大于样本的个数。Lasson回归的优点是有稀疏解,不过解不一定稳定。 如果碰到参数个数大于样本个数,这时候就不能够用参数个数来做规则化了,而是采用缩小参数空间的方法,这样的话既在统计学上对特征数量集大时有鲁棒性,同时在数值计算上方程解也具备稳定性。 第4课:线性分类器 很好的理解线性分类器,可以理解很多ml的概念,以及非线性问题。线性分类器是在实际应用过程中最有用的模型。 据余老师讲,从06年开始,人工神经网络又开始热起来了,主要体现在deep learning领域。 svm理论很完美,应用场合也很广,同理,logistic回归应用场合也非常广,和svm差不多。 当数据为大样本数据时,用线性SVM模型比较好。 第5课:非线性svm RKHS表示定理:即模型的参数是在训练样本的线性子空间中,是训练样本的线性组合。这不仅适用于svm,对其他的模型,比如感知机,RBF网络,LVQ,boosting,logistic回归等模型都成立。 Kernel可以简单理解为表示2个值相似度的测量。通过核函数可以更好的了解regularization。所需优化的目标函数可以写成参数形式,参数形式的对偶形式和非参数形式这3种。如果在非参数形式中,其规则项是由所学习到的函数f(x)来控制的,它的模与对应核函数进行特征函数分解时的特征值系数成反比。即特征函数分解中非主成分的函数对应的特征系数小,得到的惩罚就大,就会更加被抑制。因此我们保留的主要是主成分的那些特征函数。从上面可以看出,核函数是有一定的结构的,该结构决定了最终的目标函数f(x)长得什么样。 逻辑回归和svm的区别只是loss函数的不同,logstic回归的loss函数为logstic函数,核svm的loss函数为hinge loss。两者有着相同的性能,逻辑回归是带概率的输出,更容易用于多分类问题。不过目前,这2种方法都是旧方法了。 LVQ中文名为学习矢量化,它是一个基于模型的有监督学习分类器。 因此我们在设计一个模型时,需要考虑采用什么样的loss函数?采用什么样的基函数h(x)?h(x)是有限维的还是无限维的?是否需要学习h(x)?用什么样的方法来优化目标函数,QP,LBFGS,还是梯度下降等? 理论上使用kernel理论可以实现用有限的计算完成无限空间的学习问题,但是在实际问题中,由于其复杂度是样本个数N的3次方,所以当样本数据很多时,基本上是无法实现的。 参数模型和非参数模型的区别不是看模型中是否有参数,所有的模型都是有参数的,非参数模型是指随着样本数的增加,其模型中的参数的个数也跟着增加。反之就为参数模型了。常见的非参数模型有高斯过程,核svm,dirichlet过程等。 第6课:模型选择 模型选择在实际应用过程中非常有用,一般把与模型有关的数据分为3部分,训练数据,验证数据和测试数据,如下图所示: 2012111215440129.png (14.28 KB, 下载次数: 111) 下载附件 2016-4-19 23:22 上传 其中训练数据和验证数据都是已有的样本数据,即已观察到了的数据。测试数据是未来实际应用中产生的数据,是事先不知道的。 模型的参数分为2部分,第一部分是模型确定后通过训练样本学习得到的参数。另一部分是手动输入的参数,也叫做超参数,是用来控制模型的复杂度的,也就是来控制模型本身长什么样的,它是由验证数据来调节的。 模型选择问题就是说怎样验证一个模型是否好。模型的好坏最终是要看它在测试数据集上的表现。因此在未观测到测试数据时,我们只能用验证数据集来代替它进行测试。一般采用的方法为交叉验证,比如说LOOCV,即留一法交叉验证,类似的还有k折交叉验证。交叉验证的主要目的是防止训练出来的模型过拟合。但是在当今由于数据都是海量的,交叉验证方法使用越来越少了,因为如果训练数据集非常大的话,一般不会产生过拟合现象。 还有一些方法是不需要通过验证而直接来评价模型好坏的,比如是AIC,BIC,MDL,SRM等。 第7课:模型平均 本文中讲的model是指的一个learning algorithm,甚至比learning algorithm所指的范围还要小,因为在一个learning algorithm里,不同的参数调节和不同的输入特征都会导致不同的model。模型选择的目标是使模型有更好的可解释性和更好的性能,而模型平均的目标只需要使模型有更好的性能即可,因为模型平均过程中用到了很多模型,而模型个数越多则其可解释性就越低。模型平均的英文名称有model ensemble,model blending, model combination, model averaging. Model selection 和 model combination的不同使用体现在,如果某个模型以绝对的优势好于其他所有模型,那么这时候我们就采用model selection,因为不仅有好的性能,还可以获得好的可解释性。如果所有的模型在性能表现上都差不多,没有所谓的好坏,且模型本身又有很大的不同,这时候就可以采用model combination来大大提高其性能了。通常来说,model combination比model selection要稳定些。 那么该怎样构造差异性大的模型呢?可以从下面四个方面入手: 1. 不同的学习算法。 2. 不同参数调整。 3. 有差异的输入特征。 4. 引入随机思想,比如bagging。 关于指数权值的模型平均只是在均一模型平均(即采用投票的方式)的基础上将投票权值改为模型误差的指数形式,而不是相同的均值。如果所学习到的一个模型的误差越大,则其权值越低,理论上比较完美。不过在张老师讲他自己实验的时候发现并没有什么提高,有时候效果还不如voting。 Stacking和指数权值的模型平均有点类似,也是先学习出各个模型,然后把学习出的模型作为第二层学习的输入,优化最小的第二层的误差来学习模型的权值。 Bagging也是一种均一模型平均,它的所有模型的学习算法一样,只是输入样本采用bootstrip获得。因为是采用boostrip获得的,所以其训练样本有些不一定用到了,而有些则重复用到了。这样每个学习出来的model不是很稳定,因而这也扩大了model之间的差异性,提高了集群学习的性能。Bagging是减小学习的方差,而boosting是减小学习的偏差。 最后模型平均的一个比较出名的应用场合就是把决策树改造成随机森林的例子。因为单颗决策树虽然有可解释性,能够很好的处理非均匀的特征以及是一种非线性的方法,但是它的最大缺点就是分类结果不准确,因此在样本选择和输入特征选择方面采用了随机的方法得到不同的模型后,再做平均就成了随机森林,理论和实验表明随机森林的效果要比决策树好很多。 第8课:Boosting Boosting既可以看做是signal learning也可以看做是ensemble learning,本课中将其看做是ensemble learning。它是由多个弱分类器组合成一个强分类器,但是这里所指的弱分类器满足的条件其实并不弱,因为它需要满足对样本的所以加权情况的分类效果都要大于0.5,因此现在有不少学者不称这些为弱分类器了,而称为基本分类器。Boosting中最常用的算法是AdaBoosting,AdaBoosting是对分类错误的样本加大其权重来达到resamble的效果。且采用贪婪算法进行loss的函数的优化。 VC维的传统定义为: 对一个指标函数集,如果存在H个样本能够被函数集中的函数按所有可能的2的K次方种形式分开,则称函数集能够把H个样本打散;函数集的VC维就是它能打散的最大样本数目H。 AdaBoosting不是最大margin的,但为什么比最大marign的boosting效果要好呢?课程中从传统的boosting分析来做了一定的解释,但是仍不能够解释当训练误差为0时,其泛化误差还在减小这一问题,后面的学者又提出了从margin bound方面来解释这个问题。另外从另一个角度来更好的理解boosing的方法是greedy boosting,即寻找样本权重d和弱分类器权重w的过程是一个贪婪过程。最后老师讲了一个general loss函数以及利用这个函数进行的general boosting。 第9课:学习理论概论 这节课的内容比较理论化,听不太懂。机器学习理论的主要目标是平均一个学习算法的好坏,即怎样通过训练误差来估计测试误差。可以通过一致性收敛来估计训练误差和测试误差之间的关系,即测试误差以大概率事件小于训练误差加上某个值,这个值的大小与训练样本数以及概率值有关。证明上面的一致性收敛需要用到切比雪夫不等式,VC维,covering numbers这几种技术。其中covering numbers定义为attain训练样本的预测函数的个数(具体是什么没有理解清楚)。我们可以用VC维来估计convering number。最后老师还讲了一个Rademacher复杂度并说了下它和VC维之间的关系,真心不懂Rademacher是个什么东东! 第10课:机器学习中的优化问题 机器学习中大部分问题都可以归结为参数优化问题,即找到最适合目标函数的参数,该参数一般满足使目标函数最大或者最小。 常见的优化方法有梯度下降法,该方法是每次沿着梯度下降最快的那个方向寻找函数值,不断迭代就可以寻找到近似的极值。该方法的学习速率(即每次沿梯度方向前进的距离)和收敛速率是最值得关注的。一般来讲,如果函数是光滑且是严格为凸函数的,则其收敛速度最快,其实是光滑但不严格凸的,最慢的要数非光滑函数。因此当函数有一部分是光滑,而另一部分不光滑时,我们可以采用Proximal 梯度下降法,该方法是最近几年热门起来的,效果比梯度下降要好,更新的类似的算法还有Nestervo这个学者的Accelerated 梯度法(全是数学公式,完全看不懂)。为了求出局部极值点,一般可以采用近似泰勒展开中的H矩阵来求得,典型的算法有LBFGS。另外当需要优化的参数为一个向量时,不一定需要把这个向量的元素对等考虑,我们可以分开优化,即每次只优化参数向量中的一个,其它的保持不变,这样循环直到收敛。最后老师讲了凸函数的优化问题还可以采用Dual 梯度下降法。 实话说,这种纯数学公式的东西太乏味了! 第11课:Online learning Online learning指的是每当来一个数据,就会学习一个最优的预测函数,其最优的准则是当前位置loss函数值最小,因此每一步的预测函数都有可能不同,这就是Online learning。其实很早前就有online learning的例子,比如说感知机学习规则。 在了解Online learning之前需要了解regret 分析这个概率,regret指的是,Online learning中每次学习的误差减去使用用当前为止的最优函数而产生的误差的平均值,当然我们希望regret越小越好。 Online learning的关键是需要更不断新状态。其实Online learning也是一个优化问题,我们可以把第10讲的优化问题全部转换成对应的Online learning。比如说凸优化,梯度下降法,proximal descent。其中将proximal descent转换成online版本可以采用L1规则化,Dual averaging, 保持second order信息等。统计梯度下降可以用来优化大规模的数据,它的不同变种主要来源于不同的proximal 函数,不同的学习率,是否是dual averaging, 是否是averaging, 是否是acceleration等。 第12课:sparsity model Sparsity model的出现时为了解决统计学习中的维数灾难问题的,即样本的个数远远小于特征的维数。解决标准的稀疏回归模型可以采用greedy算法和convex relaxation。Greedy 算法中比较有代表性的是OMP。要从稀疏的参数重建参数需要有2个条件,即irrepresentable和RIP。稀疏模型一个代表性的问题是Lasso的求解。老师从上面2个条件介绍了lasso的求解。Lasso是基于L1规则化的。其它一些比较复杂的规则项对应的sparsity model有比如structured sparsity(比如说group structure), graphical model, matrix&nbsp;&nbsp;regularization. 这又是一堂纯数学的课程。 第13课:Graphical model Graphical model是一个应用比较广泛的模型,不过比较复杂,因为里面涉及到了很多概率的知识。但是这节课的内容还算比较表面,没有过多的细节。主要从3个方面介绍graphical model,即model本身,推理方法和模型的结构学习。概率模型中一大部分就是graphic model,而graphic model中又分为有向图和无向图,有向图中比较有代表的是贝叶斯网络,无向图中比较有代表的是MRF。本节内容主要是讲的有向图。任何一个复杂的贝叶斯网络都可以由causal chains,common cause, common effect这3部分构成。Graphical model应用很广,比如说常见的线性回归问题也可以转换成graphical model问题,如果是分段线性回归问题还可以转换成带有隐变量的graphical model。贝叶斯网络中的推理一般是给定一些观测数据,求出在此观测数据下出现某些中间状态的概率。当网络是简单的链或者是树状时,推理起来比较简单,当模型含有环状结构时,对应的推理就非常复杂了。 Graphical model中最后一个问题是模型结构的学习,可以将其看做是结构的搜索问题,对应的很多AI搜索算法此时也可以派上用场。结构学习的问题主要包括发现模型中的隐变量,因果关系直接从数据中学习其结构。 第14课:structured learning 结构学习的方法和理论包括结构输入,结构输出和结构模型。其中结构模型分为conditional model 和 generative model。Generative model包括HMM,HMM有观察值独立性的假设,为了解决该假设带来的问题,后来有学长提出了MEMM算法,不过MEMM本身又带来了标注偏置问题,最后面的改进算法CRF成功的解决了标注偏置问题。CRF模型可以看做是logistic 回归在结构学习框架下的扩展.同理M3N可以看做是SVM在结构化框架下的扩展。最后课堂上老师比较了CRFs和M3N两种算法。 第15课:deep learning 这节课讲的内容比较容易激发人的兴趣,一是因为deep learning最近非常火热,二是因为用deep learning来做一些视觉问题,其效果能提高不少。本次课程没有讲具体的细节,主要是介绍了一些deep learning的概念和应用。Deep learning的意思是可以自动来学习一些特征,比如说在视觉的分类或者识别中,一般都是特征提取+分类器设计,并且提取到的特征的好坏直接影响了分类器的分类效果,但是在目前的计算机视觉领域,其特征的提取都是我们人工设计的,需要针对不同的应用场合来提取不同的特征,余老师开玩笑的说,计算机视觉最近10年的最大成就就是有了个SIFT特征,但是它是基于RGB图像提出的,而今各种传感器,比如Kinect等。我们又得去重新设计它的特征,难道我们还要等10年么?因此可以看出,一个通用的特征提取框架需要给出,这就是deep learning,也叫做feature learning,也就是说给了很多样本,系统能够自动去学习这些样本的特征,而不是依靠人工来设计。听起来是多么的诱人!这就更类似于AI了。Deep learning主要是确定一个算法的层次结构,这个层次结构非常重要,它的想法和人体大脑皮层的工作机制类似,因为人大脑在识别某些东西的时候也是一个层次结构的。课件中主要接受了multi-scale models和hierarchical model,structure spectrum等,但没有具体展开,只是做了一个综述性的介绍。 第16课:Transfer learning &amp; Semi-supervised learning 一方面由于有些问题的训练样本数据非常少,且样本的获取代价非常高,或者是模型的训练时间特别长,另一方面由于很多问题之间有相似性,所以TL(transfer learning)就产生了。TL主要是把多个相似的task放在一起来解决,它们共享同一个输入空间和输出空间,TL常见的例子有传感器网络预测,推荐系统,图像分类等。常见的用来解决TL问题有下面几个模型,HLM(层次线性模型),NN,回归线性模型,这些模型本质上都是学校一个隐含的相同的特征空间。另外老师也讲到了TL和GP(高斯过程)的对比,高斯过程是一个贝叶斯核机器的非线性算法,通过对先验样本的采用学习可以得到尖锐的后验概率模型,它是一种非参数的模型。TL方法主要分为4大类:样本之间的迁移,特征表达的迁移,模型的迁移和相关领域知识的迁移。其中特征表达的迁移和模型的迁移在数学本质上是类似的,也是学者们研究的重点。 SSL(Semi-supervised learning)是为了达到用少量标注了的样本+大量没有标注的样本,来学习一个比单独用少量标注样本效果更好的模型。老师举了一个混合高斯分布的例子来解释SSL学习的效果,通过这个例子引出了SSL的一个通用模型。本课还简单的介绍了co-training 方法,所谓co-training,就是把表组好的数据分成几类,每一类都train一个model,然后把这些model作用到unlabel的样本上,通过优化方法达到输出一致的效果。最后介绍的Graph Laplacian以及它的harmonic 解就完全木有看懂。 第17课:Recommendation Systems Recommendation Systems一个简单的应用就是会根据用户的购买历史来退算出用户可能喜欢的产品,然后推荐给用户,目前很多互联网公司都在做这方面的研究,因为可以带来大量的经济效益。Recommendation Systems是一个协同滤波问题,本课程主要围绕不同用户给不同电影评分这个例子来介绍。首先要解决的是历史数据偏差不同的问题,即要对数据做预处理实现归一化。 在对Recommendation Systems进行设计的一个主流方法之一是将Recommendation Systems问题看做是一个分类问题,即把用户i对所有电影打分看做是要预测的标签,而其他所有人对电影的打分看做是特征,主要采用的方法是朴素贝叶斯,KNN等(其他大部分的分类算法都可以派上用场)。Recommendation Systems问题的另一主流方法是把它看成矩阵分解(MF)问题,这在实际应用中是效果最好的。因为我们观察到的数据是很稀疏的,很多位置都是missing的,且这些数据之间内部是存在一个简单结构的,因此我们可以把需要填充的矩阵R分解成2个低秩矩阵的乘积,这可以采用SVD或者SVD+一些优化的方法来解决。 由此可以看出,Recommendation Systems是一个典型的ML问题。 第18课:computer vision 本课简单的介绍了下computer vision中的基本问题,比如说什么事computer vison, computer vison的难点,computer vison问题的分类:特征检测,边缘检测,目标检测,图像分割,拼图,3D重建,计算机图形学,目标识别等等。 第19课:learning on the web 机器学习在web上的应用比较广泛,比如前面讲过的推荐系统,另外还有一些搜索结果排序,分类问题,社区行为分析,用户行为模型等等。本课程主要从分类和排序做了一些介绍。网络上存在着各种垃圾信息,例如垃圾邮件,垃圾网页,垃圾广告等,分类问题就是采用ML的方法过滤掉这些垃圾信息。另外一个比较常见的分类问题是文本分类,找出文本描述的主题,其中BOW算法既简单,又取得了很好的效果。最后老师对Web-search问题也做了个简单的介绍。总之本课大概介绍了下ML在web上的简单应用和挑战。

机器学习 2019-01-18 217人浏览 6人下载

人工智能机器学习全新升级版I......
教程内容: 1. 本课程的教学重心是从数学层面理解并掌握推导经典的机器学习算法,从历史到细节深入了解机器学习的基本思想和各种算法的具体思路与方法。 2. 强化数学、概率论、数理统计的基础知识,夯实机器学习的基础必备知识。 3. 本课程将提供严谨的数学推导过程文档,帮助学员更好地掌握算法推导(面试必备) 4. 课程中讲设置随堂测验环节,帮助学员在课中巩固和理解重要知识点。 5. 课程将提供学员经过老师精心整理的配套学习资料和经典论文,在课程的不同阶段给学员用来复习和学习。 教程目录: 第一课:机器学习的数学基础 1. 机器学习的数学基础 a. 函数与数据的泛化 b. 推理与归纳 (Deduction and Induction) 2. 线性代数(Linear Algebra) a. 向量与矩阵 (Vector and Matrix) b. 特征值与特征向量 c. 向量与高维空间 d. 特征向量(Feature Vector) 3. 概率与统计(Probability and Statistics) a. 条件概率与经典问题 (Conditional Probability) b. 边缘概率 (Marginal Probability) 4. 作业/实践: 财宝问题的概率计算程序 第二课:机器学习的数学基础 1. 统计推理(Statistical Inference) a. 贝叶斯原理与推理 (Bayesian Theorem) b. 极大似然估计 (Maximum Likelihood) c. 主观概率(Subjective Probability) d. 最大后延概率(MAP) 2. 随机变量(Random Variable) a. 独立与相关 (Independence) b. 均值与方差 (Mean and Variance) c. 协方差 (Co-Variance) 3. 概率分布(Probability Distributions) 4. 中心极限定理(Central Limit Theorem) 5. 作业/实践: 概率分布采样与不同随机变量之间协方差计算 第三课:机器学习的数学基础 1. 梯度下降(Gradient Descent) a. 导数与梯度(Derivative and Gradient) b. 随机梯度下降(SGD) c. 牛顿方法(Newton's Method) 2. 凸函数(Convex Function) a. Jensen不等式(Jensen's Inequality) b. 拉格朗日乘子(Lagrange Multiplier) 3. 作业/实践: 利用牛顿方法求解给定的方程 第四课:机器学习的哲学(Philosophy of ML) 1. 算法的科学(Science of Algorithms) a. 输入与输出的神话(Mystery of I/O) b. 奥卡姆剃刀(Occam’s Razor) 2. 维数的诅咒(Curse of Dimensionality) a. 高维的几何特性 (Geometric Properity ) b. 高维空间流形(High-dimensional Manifold) 3. 机器学习与人工智能(Machine learning and AI) 4. 机器学习的范式(Paradigms of ML) 第五课:经典机器学习模型(Classical ML Models) 1. 样本学习(Case-Based Reasoning) a. K-近邻(K-Nearest Neighbors) b. K-近邻预测(KNN for Prediction) c. 距离与测度(Distance and Metric) 2. 朴素贝叶斯(Naïve Bayes Classifier) a. 条件独立(Conditional Independence) b. 分类(Naive Bayes for Classification) 3. 作业/实践:垃圾邮件分类的案例 第六课:经典机器学习模型(Classical ML Models) 1. 决策树(Decision Tree Learning) a. 信息论与概率 b. 信息熵(Information Entropy) c. ID3, CART算法 2. 决策树剪枝(Pruning) 3. 软决策树(Soft Decision Tree) 4. 决策树与规则(DT and Rule Learning) 5. 作业/实践:决策树分类实验 第七课:经典机器学习模型(Classical ML Models) 1. 集成学习(Ensemble learning) a. Bagging and Boosting b. AdaBoost c. 误差分解(Bias-Variance Decomposition) d. 随机森林(Boosting and Random Forest) 2. 模型评估(Model Evaluation) a. 交叉验证(Cross-ValIDAtion) b. ROC (Receiver Operating Characteristics) c. Cost-Sensitive Learning 3. 作业/实践:随机森林与决策树分类实验的比较 第八课:线性模型(Linear Models) 1. 线性模型(Linear Models) a. 线性拟合(Linear Regression) 2. 最小二乘法(LMS) b. 线性分类器(Linear Classifier) 3. 感知器(Perceptron) 4. 对数几率回归(Logistic Regression) 5. 线性模型的概率解释 (Probabilistic Interpretation) 6. 作业/实践:对数几率回归的文本情感分析中应用 第九课:线性模型(Linear Models) 1. 线性判别分析 (Linear Discrimination Analysis) 2. 约束线性模型 (Linear Model with Regularization) a. LASSO b. Ridge Regression 3. 稀疏表示与字典学习 a. Sparse Representation &amp;amp; Coding b. Dictionary Learning 第十课:核方法(Kernel Methods) 1. 支持向量机SVM(Support Vector Machines) a. VC-维(VC-Dimension) b. 最大间距(Maximum Margin) c. 支撑向量(Support Vectors) 2. 作业/实践:SVM不同核函数在实际分类中比较 第十一课:核方法(Kernel Methods) 1. 对偶拉格朗日乘子 2. KKT条件(KKT Conditions) 3. Support Vector Regression (SVR) 4. 核方法(Kernel Methods) 第十二课:统计学习(Statistical Learning) 1. 判别模型与生成模型 a. 隐含变量(Latent Variable) 2. 混合模型(Mixture Model) a. 三枚硬币问题(3-Coin Problem) b. 高斯混合模型(Gaussian Mixture Model) 3. EM算法(Expectation Maximization) a. 期望最大(Expectation Maximization) b. 混合模型的EM算法(EM for Mixture Models) c. Jensen 不等式 (Jensen's Inequality) d. EM算法推导与性能 (EM Algorithm) 第十三课:统计学习(Statistical Learning) 1. 隐马可夫模型(Hidden Markov Models) a. 动态混合模型(Dynamic Mixture Model) b. 维特比算法(Viterbi Algorithm) c. 算法推导 (Algorithm) 2. 条件随机场(Conditional Random Field) 第十四课:统计学习(Statistical Learning) 1. 层次图模型(Hierarchical Bayesian Model) a. 概率图模型 (Graphical Model) b. 从隐含语义模型到p-LSA (From LSA to P-LSA) c. Dirichlet 分布与特点(Dirichlet Distribution) d. 对偶分布(Conjugate Distribution) 第十五课:统计学习(Statistical Learning) 1. 主题模型(Topic Model – LDA) a. Latent Dirichlet Allocation b. 文本分类(LDA for Text Classification) 2. 中文主题模型(Topic Modeling for Chinese) 3. 其他主题模型(Other Topic Variables) 第十六课:无监督学习(Unsupervised Learning) 1. K-均值算法(K-Means) a. 核密度估计(Kernel Density Estimation) b. 层次聚类(Hierarchical Clustering) 2. 蒙特卡洛(Monte Carlo) a. 蒙特卡洛树搜索(Monte Carol Tree Search) b. MCMC(Markov Chain Monte Carlo) c. Gibbs Sampling 第十七课:流形学习(Manifold Learning) 1. 主成分分析(PCA) a. PCA and ICA 2. 低维嵌入(Low-Dimensional Embedding) a. 等度量映射(Isomap) b. 局部线性嵌入(Locally Linear Embedding) 第十八课:概念学习(Concept Learning) 1. 概念学习(Concept Learning) a. 经典概念学习 b. One-Short概念学习 2. 高斯过程学习(Gaussian Process for ML) c. Dirichlet Process 第十九课:强化学习(Reinforcement Learning) 1. 奖赏与惩罚(Reward and Penalty) a. 状态空间 (State-Space Model) b. Q-学习算法 (Q-Learning) 2. 路径规划 (Path Planning) 3. 游戏人工智能 (Game AI) 4. 作业/实践:小鸟飞行游戏的自动学习算法 第二十课:神经网络 1. 多层神经网络 a. 非线性映射(Nonlinear Mapping) b. 反向传播(Back-propagation) 2. 自动编码器(Auto-Encoder)

机器学习 2019-01-30 228人浏览 5人下载

2017最新唐宇迪 Python数据分析与机器学习实战视频教......
# 【课程介绍】 课程风格通俗易懂,真实案例实战。精心挑选真实的数据集为案例,通过python数据科学库numpy,pandas,matplot结合机器学习库scikit-learn完成一些列的机器学习案例。课程以实战为基础,所有课时都结合代码演示如何使用这些python库来完成一个真实的数据案例。算法与项目相结合,选择经典kaggle项目,从数据预处理开始一步步代码实战带大家快速入门机器学习。 【课程目标】 课程目标:零基础快速掌握python数据分析与机器学习算法实战,快速入门python最流行的数据分析库numpy,pandas,matplotlib。对于繁琐的机器学习算法,先从原理上进行推导,以算法流程为主结合实际案例完成算法代码,使用scikit-learn机器学习库完成快速建立模型,评估以及预测。结合经典kaggle案例,从数据预处理开始一步步完成整个项目,使大家对如何应用python库完成实际的项目有完整的经验与概念。 【课程目录】 章节1: Python科学计算库-Numpy4 课时1课程介绍(主题与大纲) 课时2机器学习概述 课时3使用Anaconda安装python环境(Python新手先看这个) 课时4课程数据,代码,PPT(在参考资料界面) 课时5科学计算库Numpy 课时6Numpy基础结构 课时7Numpy矩阵基础 课时8Numpy常用函数 课时9矩阵常用操作 课时10不同复制操作对比 章节2: python数据分析处理库-Pandas 课时11Pandas数据读取 课时12Pandas索引与计算 课时13Pandas数据预处理实例 课时14Pandas常用预处理方法 课时15Pandas自定义函数 课时16Series结构 章节3: Python数据可视化库-Matplotlib 课时17折线图绘制 课时18子图操作 课时19条形图与散点图 课时20柱形图与盒图 课时21细节设置 章节4: Python可视化库Seaborn6 课时22Seaborn简介 课时23整体布局风格设置 课时24风格细节设置 课时25调色板 课时26调色板颜色设置 课时27单变量分析绘图 课时28回归分析绘图 课时29多变量分析绘图 课时30分类属性绘图 课时31Facetgrid使用方法 课时32Facetgrid绘制多变量 课时33热度图绘制 章节5: 回归算法 课时34回归算法综述 课时35回归误差原理推导 课时36回归算法如何得出最优解 课时37基于公式推导完成简易线性回归 课时38逻辑回归与梯度下降 课时39使用梯度下降求解回归问题 章节6: 决策树 课时40决策树算法综述 课时41决策树熵原理 课时42决策树构造实例 课时43信息增益原理 课时44信息增益率的作用 课时45决策树剪枝策略 课时46随机森林模型 课时47决策树参数详解 章节7: 贝叶斯算法 课时48贝叶斯算法概述 课时49贝叶斯推导实例 课时50贝叶斯拼写纠错实例 课时51垃圾邮件过滤实例 课时52贝叶斯实现拼写检查器 章节8: 支持向量机 课时53支持向量机要解决的问题 课时54支持向量机目标函数 课时55支持向量机目标函数求解 课时56支持向量机求解实例 课时57支持向量机软间隔问题 课时58支持向量核变换 课时59SMO算法求解支持向量机 章节9: 神经网络 课时60初识神经网络 课时61计算机视觉所面临的挑战 课时62K近邻尝试图像分类 课时63超参数的作用 课时64线性分类原理 课时65神经网络-损失函数 课时66神经网络-正则化惩罚项 课时67神经网络-softmax分类器 课时68神经网络-最优化形象解读 课时69神经网络-梯度下降细节问题 课时70神经网络-反向传播 课时71神经网络架构 课时72神经网络实例演示 课时73神经网络过拟合解决方案 课时74感受神经网络的强大 章节10: Xgboost集成算法 课时75集成算法思想 课时76xgboost基本原理 课时77xgboost目标函数推导 课时78xgboost求解实例 课时79xgboost安装 课时80xgboost实战演示 课时81Adaboost算法概述 章节11: 自然语言处理词向量模型-Word2Vec 课时82自然语言处理与深度学习 课时83语言模型 课时84-N-gram模型 课时85词向量 课时86神经网络模型 课时87Hierarchical Softmax 课时88CBOW模型实例 课时89CBOW求解目标 课时90梯度上升求解 课时91负采样模型 章节12: K近邻与聚类 课时92无监督聚类问题 课时93聚类结果与离群点分析 课时94K-means聚类案例对NBA球员进行评估 课时95使用Kmeans进行图像压缩 课时96K近邻算法原理 课时97K近邻算法代码实现 章节13: PCA降维与SVD矩阵分解 课时98PCA基本原理 课时99PCA实例 课时100SVD奇异值分解原理 课时101SVD推荐系统应用实例 章节14: scikit-learn模型建立与评估 课时102使用python库分析汽车油耗效率 课时103使用scikit-learn库建立回归模型 课时104使用逻辑回归改进模型效果 课时105 模型效果衡量标准 课时106ROC指标与测试集的价值 课时107交叉验证 课时108多类别问题 章节15: Python库分析科比生涯数据 课时109Kobe Bryan生涯数据读取与简介 课时110特征数据可视化展示 课时111数据预处理 课时112使用Scikit-learn建立模型 章节16: 机器学习项目实战-泰坦尼克获救预测 课时113船员数据分析 课时114数据预处理 课时115使用回归算法进行预测 课时117随机森林特征重要性分析 章节17: 机器学习项目实战-交易数据异常检测 课时118案例背景和目标 课时119样本不均衡解决方案 课时120下采样策略 课时121交叉验证 课时122模型评估方法 课时123正则化惩罚 课时124逻辑回归模型 课时125混淆矩阵 课时126逻辑回归阈值对结果的影响 课时127SMOTE样本生成策略 章节18: Python文本数据分析:新闻分类任务 课时128文本分析与关键词提取 课时129相似度计算 课时130新闻数据与任务简介 课时131TF-IDF关键词提取 课时132LDA建模 课时133基于贝叶斯算法进行新闻分类 章节19: Python时间序列分析 课时134章节简介 课时135Pandas生成时间序列 课时136Pandas数据重采样 课时137Pandas滑动窗口 课时138数据平稳性与差分法 课时139ARIMA模型 课时140相关函数评估方法 课时141建立ARIMA模型 课时142参数选择 课时143股票预测案例 课时144使用tsfresh库进行分类任务 课时145维基百科词条EDA 章节20: 使用Gensim库构造中文维基百度数据词向量模型 课时146使用Gensim库构造词向量 课时147维基百科中文数据处理 课时148Gensim构造word2vec模型 课时149测试模型相似度结果 章节21: 机器学习项目实战-贷款申请最大化利润 课时151数据预处理 课时152获得最大利润的条件与做法 课时153预测结果并解决样本不均衡问题 章节22: 机器学习项目实战-用户流失预警 课时154数据背景介绍 课时155数据预处理 课时156尝试多种分类器效果 课时157结果衡量指标的意义 课时158应用阈值得出结果 章节23: 探索性数据分析-足球赛事数据集 课时159内容简介 课时160数据背景介绍 课时161数据读取与预处理 课时162数据切分模块 课时163缺失值可视化分析 课时164特征可视化展示 课时165多特征之间关系分析 课时166报表可视化分析 课时167红牌和肤色的关系 章节24: 探索性数据分析-农粮组织数据集 课时168数据背景简介 课时169数据切片分析 课时170单变量分析 课时171峰度与偏度 课时172数据对数变换 课时173数据分析维度 课时174变量关系可视化展示 章节25: 机器学习项目实战-HTTP日志聚类分析! 课时175建立特征工程 课时176特征数据预处理 课时177应用聚类算法得出异常IP点

机器学习 2019-02-15 275人浏览 3人下载

[Python] 高端实战 Python数据分析与机器学习实......
===============课程目录===============│  ├<01-Python科学计算库-Numpy>│  │  ├课时01.课程介绍(主题与大纲).flv│  │  ├课时02.机器学习概述.flv│  │  ├课时03.使用Anaconda安装python环境.flv│  │  ├课时04.课程数据,代码,PPT(在参考资料界面).swf│  │  ├课时05.科学计算库Numpy.flv│  │  ├课时06.Numpy基础结构.flv│  │  ├课时07.Numpy矩阵基础.flv_d.flv│  │  ├课时08.Numpy常用函数.flv_d.flv│  │  ├课时09.矩阵常用操作.flv_d.flv│  │  └课时10.不同复制操作对比.flv_d.flv│  ├<02-python数据分析处理库-Pandas>│  │  ├课时11.Pandas数据读取.flv│  │  ├课时12.Pandas索引与计算.flv_d.flv│  │  ├课时13.Pandas数据预处理实例.flv_d.flv│  │  ├课时14.Pandas常用预处理方法.flv_d.flv│  │  ├课时15.Pandas自定义函数.flv_d.flv│  │  └课时16.Series结构.flv_d.flv│  ├<03-Python数据可视化库-Matplotlib>│  │  ├课时17.折线图绘制.flv│  │  ├课时18.子图操作.flv_d.flv│  │  ├课时19.条形图与散点图.flv_d.flv│  │  ├课时20.柱形图与盒图.flv_d.flv│  │  └课时21.细节设置.flv_d.flv│  ├<04-Python可视化库Seaborn>│  │  ├课时22.Seaborn简介.flv│  │  ├课时23.整体布局风格设置.flv_d.flv│  │  ├课时24.风格细节设置.flv_d.flv│  │  ├课时25.调色板.flv_d.flv│  │  ├课时26.调色板.flv_d.flv│  │  ├课时27.调色板颜色设置.flv_d.flv│  │  ├课时28.单变量分析绘图.flv_d.flv│  │  ├课时29.回归分析绘图.flv_d.flv│  │  ├课时30.多变量分析绘图.flv_d.flv│  │  ├课时31.分类属性绘图.flv_d.flv│  │  ├课时32.Facetgrid使用方法.flv_d.flv│  │  └课时33.Facetgrid绘制多变量.flv_d.flv│  ├<05-回归算法>│  │  ├课时34.热度图绘制.flv_d.flv│  │  ├课时35.回归算法综述.flv_d.flv│  │  ├课时36.回归误差原理推导.flv_d.flv│  │  ├课时37.回归算法如何得出最优解.flv_d.flv│  │  ├课时38.基于公式推导完成简易线性回归.flv_d.flv│  │  └课时39.逻辑回归与梯度下降.flv_d.flv│  ├<06-决策树>│  │  ├课时40.使用梯度下降求解回归问题.flv_d.flv│  │  ├课时41.决策树算法综述.flv_d.flv│  │  ├课时42.决策树熵原理.flv_d.flv│  │  ├课时43.决策树构造实例.flv_d.flv│  │  ├课时44.信息增益原理.flv_d.flv│  │  ├课时45.信息增益率的作用.flv_d.flv│  │  ├课时46.决策树剪枝策略.flv_d.flv│  │  └课时47.随机森林模型.flv_d.flv│  ├<07-贝叶斯算法>│  │  ├课时48.决策树参数详解.flv_d.flv│  │  ├课时49.贝叶斯算法概述.flv_d.flv│  │  ├课时50.贝叶斯推导实例.flv_d.flv│  │  ├课时51.贝叶斯拼写纠错实例.flv_d.flv│  │  └课时52.垃圾邮件过滤实例.flv_d.flv│  ├<08-支持向量机>│  │  ├课时53.贝叶斯实现拼写检查器.flv_d.flv│  │  ├课时54.支持向量机要解决的问题.flv_d.flv│  │  ├课时55.支持向量机目标函数.flv_d.flv│  │  ├课时56.支持向量机目标函数求解.flv_d.flv│  │  ├课时57.支持向量机求解实例.flv_d.flv│  │  ├课时58.支持向量机软间隔问题.flv_d.flv│  │  └课时59.支持向量核变换.flv_d.flv│  ├<09-神经网络>│  │  ├课时60.SMO算法求解支持向量机.flv_d.flv│  │  ├课时61.初识神经网络.flv_d.flv│  │  ├课时62.计算机视觉所面临的挑战.flv_d.flv│  │  ├课时63.K近邻尝试图像分类.flv_d.flv│  │  ├课时64.超参数的作用.flv_d.flv│  │  ├课时65.线性分类原理.flv_d.flv│  │  ├课时66.神经网络-损失函数.flv_d.flv│  │  ├课时67.神经网络-正则化惩罚项.flv_d.flv│  │  ├课时68.神经网络-softmax分类器.flv_d.flv│  │  ├课时69.神经网络-最优化形象解读.flv_d.flv│  │  ├课时70.神经网络-梯度下降细节问题.flv_d.flv│  │  ├课时71.神经网络-反向传播.flv_d.flv│  │  ├课时72.神经网络架构.flv_d.flv│  │  ├课时73.神经网络实例演示.flv_d.flv│  │  └课时74.神经网络过拟合解决方案.flv_d.flv│  ├<10-Xgboost集成算法>│  │  ├课时75.感受神经网络的强大.flv_d.flv│  │  ├课时76.集成算法思想.flv_d.flv│  │  ├课时77.xgboost基本原理.flv_d.flv│  │  ├课时78.xgboost目标函数推导.flv_d.flv│  │  ├课时79.xgboost求解实例.flv_d.flv│  │  ├课时80.xgboost安装.flv_d.flv│  │  └课时81.xgboost实战演示.flv_d.flv│  ├<11-自然语言处理词向量模型-Word2Vec>│  │  ├课时82.Adaboost算法概述.flv_d.flv│  │  ├课时83.自然语言处理与深度学习加微信ff1318860.flv_d.flv│  │  ├课时84.语言模型.flv_d.flv│  │  ├课时85.-N-gram模型.flv_d.flv│  │  ├课时86.词向量.flv_d.flv│  │  ├课时87.神经网络模型.flv_d.flv│  │  ├课时88.Hierarchical.Softmax.flv_d.flv│  │  ├课时89.CBOW模型实例.flv_d.flv│  │  ├课时90.CBOW求解目标.flv_d.flv│  │  └课时91.梯度上升求解.flv_d.flv│  ├<12-K近邻与聚类>│  │  ├课时92.负采样模型.flv_d.flv│  │  ├课时93.无监督聚类问题.flv_d.flv│  │  ├课时94.聚类结果与离群点分析.flv_d.flv│  │  ├课时95.K-means聚类案例对NBA球员进行评估.flv_d.flv│  │  ├课时96.使用Kmeans进行图像压缩.flv_d.flv│  │  └课时97.K近邻算法原理.flv_d.flv│  ├<13-PCA降维与SVD矩阵分解>│  │  ├课时100.PCA实例.flv_d.flv│  │  ├课时101.SVD奇异值分解原理.flv_d.flv│  │  ├课时98.K近邻算法代码实现.flv_d.flv│  │  └课时99.PCA基本原理.flv_d.flv│  ├<14-scikit-learn模型建立与评估>│  │  ├课时102.SVD推荐系统应用实例.flv_d.flv│  │  ├课时103.使用python库分析汽车油耗效率.flv│  │  ├课时104.使用scikit-learn库建立回归模型.flv_d.flv│  │  ├课时105.使用逻辑回归改进模型效果.flv_d.flv│  │  ├课时106..模型效果衡量标准.flv_d.flv│  │  ├课时107.ROC指标与测试集的价值.flv_d.flv│  │  └课时108.交叉验证.flv_d.flv│  ├<15-Python库分析科比生涯数据>│  │  ├课时109.多类别问题.flv_d.flv│  │  ├课时110.Kobe.Bryan生涯数据读取与简介.flv│  │  ├课时111.特征数据可视化展示.flv_d.flv│  │  └课时112.数据预处理.flv_d.flv│  ├<16-机器学习项目实战-泰坦尼克获救预测>│  │  ├课时113.使用Scikit-learn建立模型.flv_d.flv│  │  ├课时114.船员数据分析.flv│  │  ├课时115.数据预处理.flv_d.flv│  │  ├课时116.使用回归算法进行预测.flv_d.flv│  │  └课时117.使用随机森林改进模型.flv_d.flv│  ├<17-机器学习项目实战-交易数据异常检测>│  │  ├课时118.随机森林特征重要性分析.flv_d.flv│  │  ├课时119.案例背景和目标.flv_d.flv│  │  ├课时120.样本不均衡解决方案.flv_d.flv│  │  ├课时121.下采样策略.flv_d.flv│  │  ├课时122.交叉验证.flv_d.flv│  │  ├课时123.模型评估方法.flv_d.flv│  │  ├课时124.正则化惩罚.flv_d.flv│  │  ├课时125.逻辑回归模型.flv_d.flv│  │  ├课时126.混淆矩阵.flv_d.flv│  │  └课时127.逻辑回归阈值对结果的影响.flv_d.flv│  ├<18-Python文本数据分析:新闻分类任务>│  │  ├课时128.SMOTE样本生成策略.flv_d.flv│  │  ├课时129.文本分析与关键词提取.flv_d.flv│  │  ├课时130.相似度计算.flv_d.flv│  │  ├课时131.新闻数据与任务简介.flv_d.flv│  │  ├课时132.TF-IDF关键词提取.flv_d.flv│  │  └课时133.LDA建模.flv_d.flv│  ├<19-Python时间序列分析>│  │  ├课时134.基于贝叶斯算法进行新闻分类.flv_d.flv│  │  ├课时135.章节简介.flv│  │  ├课时136.Pandas生成时间序列.flv_d.flv│  │  ├课时137.Pandas数据重采样.flv_d.flv│  │  ├课时138.Pandas滑动窗口.flv_d.flv│  │  ├课时139.数据平稳性与差分法.flv_d.flv│  │  ├课时140.ARIMA模型.flv_d.flv│  │  ├课时141.相关函数评估方法.flv_d.flv│  │  ├课时142.建立ARIMA模型.flv_d.flv│  │  ├课时143.参数选择.flv_d.flv│  │  ├课时144.股票预测案例.flv_d.flv│  │  └课时145.使用tsfresh库进行分类任务.flv_d.flv│  ├<20-使用Gensim库构造中文维基百度数据词向量模型>│  │  ├课时146.维基百科词条EDA.flv_d.flv│  │  ├课时147.使用Gensim库构造词向量.flv_d.flv│  │  ├课时148.维基百科中文数据处理.flv_d.flv│  │  └课时149.Gensim构造word2vec模型.flv_d.flv│  ├<21-机器学习项目实战-贷款申请最大化利润>│  │  ├课时150.测试模型相似度结果.flv_d.flv│  │  ├课时151.数据清洗过滤无用特征.flv_d.flv│  │  ├课时152.数据预处理.flv_d.flv│  │  └课时153.获得最大利润的条件与做法.flv_d.flv│  ├<22-机器学习项目实战-用户流失预警>│  │  ├课时154.预测结果并解决样本不均衡问题.flv_d.flv│  │  ├课时155.数据背景介绍.flv_d.flv│  │  ├课时156.数据预处理.flv_d.flv│  │  ├课时157.尝试多种分类器效果.flv_d.flv│  │  └课时158.结果衡量指标的意义.flv_d.flv│  ├<23-探索性数据分析-足球赛事数据集>│  │  ├课时159.应用阈值得出结果.flv_d.flv│  │  ├课时160.内容简介.flv_d.flv│  │  ├课时161.数据背景介绍.flv│  │  ├课时162.数据读取与预处理.flv_d.flv│  │  ├课时163.数据切分模块.flv_d.flv│  │  ├课时164.缺失值可视化分析.flv_d.flv│  │  ├课时165.特征可视化展示.flv_d.flv│  │  ├课时166.多特征之间关系分析.flv_d.flv│  │  └课时167.报表可视化分析.flv_d.flv│  ├<24-探索性数据分析-农粮组织数据集>│  │  ├课时168.红牌和肤色的关系.flv_d.flv│  │  ├课时169.数据背景简介.flv_d.flv│  │  ├课时170.数据切片分析.flv_d.flv│  │  ├课时171.单变量分析.flv_d.flv│  │  ├课时172.峰度与偏度.flv_d.flv│  │  ├课时173.数据对数变换.flv_d.flv│  │  └课时174.数据分析维度.flv_d.flv│  ├<25-机器学习项目实战-HTTP日志聚类分析>│  │  ├课时175.变量关系可视化展示.flv_d.flv│  │  ├课时176.建立特征工程.flv_d.flv│  │  ├课时177.特征数据预处理.flv_d.flv│  │  └课时178.应用聚类算法得出异常IP点.flv_d.flv

机器学习 2019-02-18 163人浏览 3人下载