xiao蜗牛

27
获赞数
1
关注数
20
粉丝数
广州
延边大学 | 统计学
IP 属地安徽
2016-06-03 加入
浏览 8.3k

{name: 'Xiao蜗牛',
age: 23,
gender: '男',
address: '广东省广州市',
education: '本科/延边大学',
Github: 'https://github.com/guuboi',
email: 'guuboi@163.com',
skills: [

['Excel', 'Spss', 'R语言', 'Python'],
['MySql', 'Oracle', 'Hive', 'Pig'],
['数据分析', '自然语言处理'],
['Linux']

]}

85 声望|新手
r语言
43
r
42
数据分析
40
python
25
rstudio
13
黄金勋章
暂未获得该勋章
如何获得
白银勋章
暂未获得该勋章
如何获得
个人动态
  • 发布了文章2017-12-29
    理解偏倚和方差权衡
    当我们讨论预测模型时,预测误差可以分解为两个主要部分:由“偏倚”引起的误差,以及由“方差”引起的误差。模型最小化偏倚和方差的能力之间存在着权衡。理解这两种类型的错误可以帮助我们诊断模型结果,避免过拟合或欠拟合。
  • 发布了文章2017-11-02
    随机森林简易教程
    基于树的学习算法被认为是最优秀的,也是使用最广泛的监督型学习方法。基于树的算法赋予预测模型高精度、稳定性和易解释性。与线性模型不同,它们能很好地映射非线性关系。它们善于解决手头上的任何问题,包括分类和回归。
  • 发布了文章2017-10-31
    TensorFlow2
    机器学习基础 线性回归 逻辑回归 Softmax分类 神经网络 线性回归 什么是回归? 通俗地讲:给定X1, X2, ..., Xn,通过模型或算法预测数值Y,即是回归。如上图所示。例如,预测测试分数: x(hours) y(score) 10 90 9 80 3 50 2 30 以下面的数据阐述什么是线性回归: x ...
  • 发布了文章2017-10-31
    Kmeans聚类算法
    Kmeans是最流行的,以及最简单的用于挖掘数据潜在结构的机器学习算法之一。Kmeans的目标很简单:根据数据的均值,将数据划分为若干个簇。假定每个簇的均值可以很好地代表簇内的每一个观察值。
  • 发布了文章2017-10-24
    TensorFlow1
    TensorFlow Tensorflow是一个开源软件库,它使用数据流图的形式进行数值计算。 什么是数据流图(Data Flow Graph) 节点(Nodes):表示数学运算操作符 边(Edges):用于传送节点之间的多维数组,即张量。 安装TensorFlow CPU版本:pip install --upgrade tensorflo...
  • 发布了文章2017-10-10
    R语言rvest爬取天气网中的历史天气信息
    整体思路 我们进入天气网首页:[链接],以广州2017年09月历史天气为例,把当前页面切换到广州天气页面,如下图: 继续往下滚动页面,直到看到广州历史天气详情,然后点击2017年09月天气 ,进入广州2017年09月天气详情页面,如下图: 注意链接地址的变化:链接中的gua...
  • 发布了文章2017-10-10
    如何从URL中读取txt或csv文件?
    这篇文章主要讨论如何从URL中获取数据。为什么需要从URL中获取数据? 你想和不熟悉R的人分享你的代码,以及你想避免解释如何在文件开头改变文件的路径等问题。 URL中的数据一直更新,你想实时处理最新的数据。 你希望你的代码在另一台机器以及另一个目录下工作。 你...
  • 发布了文章2017-08-25
    Pearson相关系数 vs. Spearman相关系数
    统计术语中,相关系数一词经常被滥用,同时也困扰着我。相关系数描述一个变量随着另一个变量的增加而增加,也可以理解为单调递增。变量之间的这个单调趋势很值得去探索,但是大多数人习惯使用标准相关系数导致无法发现这一趋势。在我的印象中,老师在课堂上经常强调...
  • 发布了文章2017-07-11
    基于gensim的Wiki百科中文word2vec训练
    Word2Vec是词(Word)的一种表示方式。不同于one-hot vector,word2vec可以通过计算各个词之间的距离,来表示词与词之间的相似度。word2vec提取了更多的特征,它使得具有相同上下文语义的词尽可能离得近一些,而不太相关的词尽可能离得较远一些。例如,【腾讯】和【...
  • 发布了文章2017-07-10
    linux - 安装OpenCC(简体繁体转换)
    最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了。这时候就知道OpenCC的强大了。哈哈,本来打算直接使用python里面的opencc模块的,但是在安装,编译opencc时遇到了各种错误。花费了很长时间,终于安装成功,但是文本处理起来...
  • 发布了文章2017-07-08
    Python - 安装opencc ImportError: no module named distribute_setup
    当通过pip方式安装opencc时,可能会遇到以下错误:ImportError: No module named distribute_setup。
  • 发布了文章2017-07-04
    Python - softmax 实现
    softmax函数将任意n维的实值向量转换为取值范围在(0,1)之间的n维实值向量,并且总和为1。例如:向量softmax([1.0, 2.0, 3.0]) ------> [0.09003057, 0.24472847, 0.66524096]
  • 发布了文章2017-06-28
    Theano - 广播(broadcasting)
    如上图,广播一个行矩阵。T和F分别表示True和False,指明沿着哪个维度可以进行广播。如果第二个参数是向量,它的形状为(2,)以及它的广播模式为(False,)。它将会自动向左展开,匹配矩阵的维度,最终得到(1,2)和(True,Fale)。
  • 发布了文章2017-06-28
    Theano - theano如何处理形状信息
    在构建图的时候,不可能严格执行Theano变量的形状。因为在运行的时候,传递给Theano函数的某一参数的值可能影响Thenao变量的形状。目前,关于形状信息的使用在Theano中有以下两种方式:
  • 发布了文章2017-06-28
    Theano - 循环
    Scan 复发(Recurrence)的一种常用形式,可以用于循环(looping) Reduction和map是scan的特例 可以根据一些输出序列scan一个函数(function),每一步都会生成一个输出 可以查看之前k步的输出 给定一个初始状态z=0,可以通过scan函数z + x(i)计算一个列表的和sum(a_list)...
  • 发布了文章2017-06-28
    Theano - 条件
    IfElse vs Switch IfElse接收布尔型条件和两个变量作为输入。 Switch接收一个张量(Tensor)以及两个变量作为输入。 Switch进行元素级运算,因此比IfElse更常用。 IfElse比较懒惰,只计算满足条件的相应输出变量, 而Switch计算所有的输出变量。 即: ifelse(conditi...
  • 发布了文章2017-06-28
    Theano - 导数
    计算梯度 计算x^2的梯度 {代码...} 计算逻辑函数的梯度 {代码...} 计算Jacobian {代码...} 计算Hessian矩阵 {代码...} Jacobian times a Vector 右算子(R-operator) {代码...} 左算子(L-operator) {代码...} Hessian times a Vector {代码...} 右算子 {代码...}
  • 发布了文章2017-06-28
    Theano - 更多的例子
    含有默认值的输入必须位于不含默认值的输入之后(和python的函数类似)。允许多个输入含有默认值,这些参数可以通过位置设定,也可以通过名字进行设定。
  • 发布了文章2017-06-28
    Theano - 代数(Algebra)
    byte: bscalar, bvector, bmatrix, brow, bcol, btensor3, btensor4, btensro5
  • 发布了文章2017-06-28
    Theano - Numpy 新手
    水平方向为矩阵的行,竖直方向为矩阵的列,每一行为一个样例(记录)。 因此输入[10, 5]表示:由10个样例(记录),每个样例具有5个维度(属性)组成的矩阵。如果[10,5]为一个神经网络的输入,那么权重矩阵的表示形式为[5, #hid]的矩阵。考虑一下数组: