发布了文章2016-09-12
排序方法 冒泡排序 In [1]: {代码...} Out[1]: {代码...} In [21]: {代码...} Out[21]: {代码...} 复杂度分析 平均情况与最坏情况均为 $O(n^2)$, 使用了 temp 作为临时交换变量,空间复杂度为 $O(1)$. 选择排序 核心:不断地选择剩余元素中的最小者。 找到数组中最小...
发布了文章2016-08-19
演算法选方面选择:PLA, pocket, linear regression, logistic regressioniteration的次数:100,1000每步大小: 1,0.01特征transform: linear线性的、quadratic二次的,poly-10 10次多项式,legendre-poly-10 10次垂直多项式。 regulation选什么: L2 regularizeer L2...
发布了文章2016-08-18
监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据。 我们需要保证模型“简单”的基础...
发布了文章2016-08-17
[TOC] 什么是过拟合 如下图我们本来想要的是蓝色的二次曲线,取了五个点,但是我们使用红色的四次曲线穿过这5个点,使得 $$ E_{in} $$ 很小 但是我们从图像上可以看到 $$ E_{out} $$ 是很大的。 overFitting: fitting指的是通过学习使得 $$ E_{in} $$ 很小。 overFit...
发布了文章2016-08-16
[TOC] 二次方程的hypothesis 对于非线性的数据分类,如果我们使用线性模型,就会使得Ein很大,分得不好。 对称中心在原点的二次方程 现在我们考虑如何用二次方程(圆的方式)来进行separate: 我们可以使用半径平方为0.6的圆可以将它分开 。 这里我们进行非线性的变换...
发布了文章2016-08-14
s表示用这个模型得出的分数,取值范围应该跟原来是一样的,线性回归的s=wx取值范围为实数R,logistic回归的取值范围为0-1(一个概率)ys:合起来表示正确的分数
发布了文章2016-08-12
这里我们的二值分类和硬性二值分类的数据是一样的,但是目标函数是不一样的。而软性二值分类所真正需要的数据是跟目标函数一样的概率,但是我们收集的数据却是分类的结果。
发布了文章2016-08-09
以下是我最近几个星期学习c++11做的一些记录,包括收集的一些信息,整理的相关概念和写的一些测试代码。具体相关代码我写了24个cpp文件,托管在来github上面cpp11,记录一下。
发布了文章2015-06-11
最近学习了一下git命令来操作一下库,发现git命令虽然不多(当然也不算少),但是它们组合起来功能很强大,更重要的是很多命令在不同的状态下发挥的效果不一样,本博文总结了一下git命令,并详细说明了一些命令的使用场景。
回答了问题2015-06-08
我记得在vs里面c#用的是ctr+r+e,就可以快速为字段生成属性,至于c++,似乎语法没这个必要。
发布了文章2015-06-08
第一次修订于 2015年6月4日 13:58:00 MapReduce解决三个问题 问题 解决方案 分布式结点易出错 设置数据冗余备份 网络瓶颈 在数据源附近运算 分布式运算比较复杂 建立简单的编程模型 冗余存储结构 分布式文件系统:谷歌的GFS,Dadoop的HDFS; 块服务器chunk Server 文...