Wenjing Liu

Homepage

决策树与随机森林

决策树概念 决策树实际上是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二。 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性(features),叶结点表示一个类(labels)。 结......

K-近邻 kNN, k-NearestNeighbor

概念 给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的 k 个实例,这 k 个实例的多数属于某个类,就把该输入实例分为这个类。 优点: 算法简单 训练简单 适用于任意数量的分类 容易添加更多数据 精度高 对异常值不敏感 无数据输入假定 参数少: K distance metric 缺点: 高预测成本(大的数据集更糟) 高维数据不太好 计算复杂度高 空间复......

逻辑回归 Logistic Regression

概念 根据现有数据对分类边界线(Decision Boundary)建立回归公式,以此进行分类。用于估计某种事物的可能性。用的是“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘。 逻辑回归与线性回归的关系 相同点:逻辑回归与线性回归都是一种广义线性模型。去除Sigmoid映射函数的......

Bias-Variance 平衡

不同的误差源如何导致偏差和方差有助于我们改进数据拟合过程,从而产生更准确的模型。三种方式定义偏差和方差:概念上,图形上和数学上。 概念上 Error due to Bias: 表示我们的模型预测的期望值(或者叫平均值)与模型想要努力接近真实值的difference。期望值是指,你可以通过多个数据集(随机性)来训练多个模型(参数会不同),这些模型的预测值与真实值的偏差叫Bias。不可以......

线性回归 Linear Regression

概念 回归是为了预测数值型的目标值。 线性回归假设特征和结果之间满足线性关系。 求解回归方程的回归系数的过程就是回归。 回归系数是一个向量,输入也是向量,这些运算也就是求出二者的内积。 数学理论 $$ y=WX $$ $W$ 是回归系数向量. 给定输入是$X_{1}$, 那么预测结果就是 $y=X_{1}^{T}W$. 现在有一些$X$和$y$, 我们的目的就是找到$W$。 常用的方法就是找......

工具以及框架总结

数据科学 语言 python 包 numpy pandas sqlalchemy lxml html5lib BeautifulSoup4 nltk 数据 UCI Data set 数据可视化 Matplotlib Seaborn Pandas内嵌数据可视化 Plotly and Cufflinks Geographical Plotting 框架 Sc......

2019-下半年学习计划

学无止境,学海无涯 专注深入的学习技术 机器学习基础 机器学习概念、应用与前沿 内容 机器学习技术和应用场景的介绍。常见算法,主流的应用构建方法。主流机器学习框架介绍,针对机器学习场景能够更好的应用相关工具进行分析与处理。 项目 鸢尾花分类实战 分类预测实战 回归预测实战 数学基础-数学概念 内容 机器学习中用到的数学基础由浅入深进行详细的梳理与讲解。主要涉及矩阵、导数、概率......

机器学习优化方法

机器学习算法 = 模型表征 + 模型评估 + 优化算法 无论何种类型的机器学习,最后都归结为求解最优化问题 求一个目标函数的极值=> 最优化问题 数学模型 监督学习 找到一个最佳的映射函数f(x),使得对训练样本的损失函数最小化(最小化经验风险或结构风险) $$ min_{W}\frac{1}{N}\sum_{i=1}^{N}L(W,x_{i},y_{i}) + \lambda|......

特征工程

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 实践中学习的手艺 More data beats clever algorithms, but better data beats more data 特征工程包含以下几个方面: 特征使用方案 要实现我们的目标需要哪些数据? 基于业务理解,尽可能找出对因变量有影响的所有自变量 可用性评估 获取难度 覆盖率 准确率......

Machine Learning Basics

Day 1

A brief overview of machine learning Key tasks in machine Learning Classification Regression How to choose a right algorithm Supervised learning tasks k-Nearest Neighbors Linear Nai......