ZhengYang's Blog

Machine Learning & Data Mining

奇异值分解

SVD的通俗解释SVD从最简单的二维上来说,原始正交基 $v_1,v_2$,通过乘以一个矩阵M,在原空间线性变换,得到一组新的正交积$u_1,u_2$,$\sigma_1,\sigma_2$是表示变化后长度的标量$\sigma_1u_1=Mv_1$$\sigma_2u_2=Mv_2$原空间的向量$x$可以表示为,$x=v_1^Txv_1+v_2^Txv_2$两边同时左乘M,得,$Mx=Mv_......

矩估计 假设检验

假设检验某类型电池的寿命必须超过$\mu_0=100$小时才算合格,现随机抽检了$n=50$个样品,发现平均使用寿命为$\overline x=98$小时,样本标准差为$s=5$小时,如果取显著性水平为$\alpha=0.025$,那么该厂的电池能否采购?$$H_0:\mu\geqslant\mu_0, H_1:\mu<\mu_0$$$$t=\frac{\overline x-\mu_......

1.图的表示G=(V,E)表示图,其中|V|=n 邻接矩阵G的邻接矩阵是一个N阶方阵$$A_{ij}= \begin{cases}1, (i,j)\in E \\0, elsewise\end{cases}$$如果图没有自连接的话,主对角线全为0。对于无向图,邻接矩阵是对称的;对于有向图,邻接矩阵基本是不对称的。 邻接表 adjacency listG的邻接表包含一个大小为N列表,每个元素为......

查找

为什么要用equals()?为什么不一直用从compareTo()?因为并不是所有的对象都实现了Comparable接口,但所有的对象都继承了Object类,所以都可以equals() 二叉查找树 BST (Binary Search Tree)又称二叉排序树二叉查找树 不是 平衡的二叉树 平衡查找树 ALV (balanced binary tree)又称平衡二叉树。 左子树和右子树的高......

排序

排序算法 id 排序算法 最好情况 平均情况 最坏情况 空间 稳定性 方法 原地排序 备注 1 选择排序 $n^2$ $n^2$ $n^2$ $1$ 不稳定 选择 是 每次选最小的与第i个元素交换,是数据移动次数最少的算法,注意,但不是比较次数最少的算法 2 冒泡排序 $n$ $n^2$ $n^2$ $1$ 稳定 交换 是 从头开始每次确定一个最大的,冒泡到尾,然后数组量减一......

推荐

推荐实验方法离线实验 通过日志系统获得用户行为数据,并按照一定格式生成一个标准的数据集 将数据集分为训练集和测试集 在训练集上训练模型,在测试集上测试 通过事先定义的评测指标判断测试效果 用户调查离线实验的指标和实际的指标会存在差异,比如预测准确率和用户满意度之间就存在差异,高预测准确率不等于高用户满意度。最好的方法就是直接上线测试,但直接上线会存在风险,因此会在上线前做用户调查。 在线实......

弱对偶 与 强对偶

弱对偶 与 强对偶 关系解释一弱对偶弱对偶:在最优化问题中,对偶间隙(duality gap)总是大于等于0。对于最小值优化来说,即$d\leqslant p$ 强对偶强对偶:在最优化问题中,对偶间隙(duality gap)等于0,即原问题等于对偶问题,$d=p$。 弱对偶 变为 强对偶 (充分条件) 若原问题是线性归回问题则弱对偶直接等于强对偶 若原问题是凸优化问题则需要满足Slater......

LR & SVM

LR 与 SVMLR可以看作是一个线性分类器,一个w向量构成的超平面,与w内积大于0的表示正类,小于0的表示负类。LR与SVM线性核都是用一个超平面做分类,区别在于损失函数不同。LR是logistic损失,SVM是hinge损失。 LRLR原本的损失是NLL,可以看成cross entropy,对数损失。如果把 $y=\{1,0\}$,换成 $y=\{1,-1\}$,那么可以看成logist......

SOM网络

SOM(Self-Organizing Map)网络SOM网络又称Kohonen网络,自组织特征映射(SOFM)网。SOM网络是一种竞争的无监督神经网络,是两层结构,将高维输入数据映射到低维空间(通常为二维),同时保持输入数据在高维空间的拓扑结构,即高维空间中相似的样例映射到网络输出层中的邻近神经元中。因此,SOM适用于聚类。SOM的训练目的就是为每个神经元找到合适的权向量,以达到保持拓扑结......

聚类总结

距离 原型聚类 k-means LVQ DBSCAN 层次聚类 距离 1-范数距离(曼哈顿距离)$$||x_i-y_i||_1 = \sum_{i=1}^n|x_i-y_i|$$ 2-范数距离(欧式距离)$$||x_i-y_i||_2 = (\sum_{i=1}^n|x_i-y_i|^2)^{1/2}$$ p-范数距离(闵可夫斯基距离)$$||x_i-y_i||_p = ......