「机器学习」《机器学习》笔记
本系列Blog是基于周志华老师的《机器学习》一书的学习笔记。
第1章 绪论机器学习(Machine Learning)致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中学得“模型”(model)的算法,即“学习算法”(learning algorithm)。
一般地,我们用“模型”指从数据中学得的全局性结果(例如一棵决策树),而用“模式”指局部性结构(例如一条规则)。
1.1 基本术语数据样本要进行机器学习,先要有数据。
假定我们收集了一批关于西瓜的数据,例如:(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂= 稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆),……
每对括号内是一条记录,这组记录的集合称为一个”数据集”(data set),其中:
每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个**”示例”(instance)或”样本”(sample)**;
反映事件或对象在某方面的表现或性质的事项,例如”色泽””根蒂””敲声”, ...
「SSH」远程连接ssh配置.md
SSH 简介SSH(Secure Shell 的缩写)是一种网络协议,它主要用于保证远程登录和远程通信的安全,任何网络服务都可以用这个协议来加密。
SSH 的软件架构是服务器-客户端模式(Server - Client)。在这个架构中,SSH 软件分成两个部分:向服务器发出请求的部分,称为客户端(client),OpenSSH 的实现为 ssh;接收客户端发出的请求的部分,称为服务器(server),OpenSSH 的实现为 sshd。
另外,OpenSSH 还提供一些辅助工具软件(比如 ssh-keygen 、ssh-agent)和专门的客户端工具(比如 scp 和 sftp)。
SSH 客户端1. OpenSSH 简介OpenSSH 的客户端是二进制程序 ssh。它在 Linux/Unix 系统的位置是/usr/local/bin/ssh,Windows 系统的位置是\Program Files\OpenSSH\bin\ssh.exe。
Linux 系统一般都自带 ssh,如果没有就需要安装。
12345# Ubuntu 和 Debian$ sudo apt install ope ...
「生活随笔」新手相机选购指南
临近毕业季,越来越发觉自己对于拍摄的喜爱,也越来越深刻地意识到手机摄影的不足,对手上的 iphone 11 pro 也越来越不满。因此,觉得有必要也给自己正儿八经入个相机了。
先列一下自己的需求:
微单
以风景、人像为主
对视频拍摄也有一定的要求,不能太拉
索尼
类似安卓,操作不太友好,而佳能更像苹果,而且屏幕质量也高,触摸操作,
桂花语录
差一点的微单不如顶级卡片机
定焦镜头一定优于变焦镜头
「机器学习」面试常见问题汇总
机器学习基础验证集与测试集
验证集的作用:
使用验证集是为了 快速调参,也就是用验证集选择超参数(网络层数,网络节点数,迭代次数,学习率这些)。另外用验证集还可以监控模型是否异常(过拟合啦什么的),然后决定是不是要提前停止训练。
验证集的关键在于 选择超参数,我们手动调参是为了让模型在验证集上的表现越来越好,如果把测试集作为验证集,调参去拟合测试集,就有点像作弊了。
而测试集既 不参与参数的学习过程,也 不参与参数的选择过程,仅仅用于模型评价。
Bias 与 Variance欠拟合也称为高偏差(bias),过拟合也称为高方差(variance)。
关于过拟合问题,要注意:
Batch Normalization的主要作用是加快网络的训练速度,一般不说它是防止过拟合的。
如果硬要说是防止过拟合,可以这样理解:
BN每次的mini-batch的数据都不一样,但是每次的mini-batch的数据都会对moving mean和moving variance产生作用,可以认为是引入了噪声,这就可以认为是进行了data augmentation,而data augmentation被认为是 ...
「深度学习」(目标检测算法
<机器爱学习>YOLO v1深入理解
YOLO系列综述:从V1到V4
0x00 目标检测算法的发展从 Two-Stage 到 One-Stage0x01 YOLO v1: You Only Look Once!YOLO(You Only Look Once)是一种基于深度神经网络的物体识别和定位算法,其最大的特点是运行速度很快,可以用于实时系统。该算法创造性的将候选区和物体识别这两个阶段合二为一,即看一眼图片(不用看两眼哦)就能知道有哪些对象以及它们的位置。
实际上,YOLO并没有真正去掉候选区,而是采用了预定义的候选区(准确点说应该是预测区,因为并不是Faster RCNN所采用的Anchor)。也就是将图片划分为 7 * 7 = 49 个网格(grid),每个网格允许预测出2个边框(bounding box,包含某个对象的矩形框),总共 49 * 2 = 98 个bounding box。可以理解为98个候选区,它们很粗略的覆盖了图片的整个区域。
RCNN虽然会找到一些候选区,但毕竟只是候选,等真正识别出其中的对象以后,还要对候选区进行微调,使之更接近真实的bo ...
「Shell」Shell 脚本进阶、经典用法及其案例
来源:https://www.cnblogs.com/along21/p/7519710.html
一、条件选择、判断1、条件选择if(1)用法格式
123456789if 判断条件 1 ; then 条件为真的分支代码elif 判断条件 2 ; then 条件为真的分支代码elif 判断条件 3 ; then 条件为真的分支代码else 以上条件都为假的分支代码fi
逐条件进行判断,第一次遇为“真”条件时,执行其分支,而后结束整个if。
(2)经典案例:
请输入年纪,先判断输入的是否含有除数字以外的字符,有,就报错;没有,继续判断是否小于150,是否大于18。
1234567891011121314#判断年纪#!/bin/bashread -p "Please input your age: " ageif [[ $age =~ [^0-9] ]] ;then echo "please input a int" exit 10elif [ $age -ge 150 ];then e ...
「深度学习」常见normalization方法原理及对比
0x00 标准化与归一化
这一节与本文要重点介绍的 normalization 无关,只是为了区别这两个概念。
1. 关于二者在概念上的勘误网上各种资料,抄来抄去,而在于大家讨论的概念内涵不统一,导致 “标准化” (standardization) 和 “归一化” (normalization) 这两个词长期被混用并被传播。
根据维基百科 Feature scaling - Wikipedia ,”标准化”和”归一化”这两个中文词指代的是四种 Feature scaling (特征缩放)方法:
Rescaling (min-max normalization) :
$$x’ = \frac{x - min(x)}{max(x) - min(x)}$$
Mean normalization :
$$x’ = \frac{x - mean(x)}{max(x) - min(x)}$$
Standardization (Z-score normalization) :
$$x’ = \frac{x - \bar{x} }{\sigma}$$
Scaling to unit leng ...
「机器学习」过拟合问题与正则化方法
机器学习中,如果参数过多,模型过于复杂,容易造成过拟合(overfitting):即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具备良好的泛化能力。
为了避免过拟合,最常用的一种方法是使用正则化,例如 L1 和 L2 正则化。但是,正则化项是如何得来的?其背后的数学原理是什么?L1 正则化和 L2 正则化之间有何区别?除此之外,还有哪些方法来解决过拟合问题?
本文将对这些问题给出直观的解释。
0x00 过拟合问题虽然很简单,但我们还是先来回顾一下过拟合问题,以线性回归中的房价预测为例:
左边第一幅图是一个线性模型,并没有很好的拟合训练数据,我们把此类情况称为欠拟合(underfitting)**,或者叫作叫做高偏差(bias)**。
中间第二幅图,我们在中间加入一个二次项,也就是说对于这幅数据我们用二次函数去拟合,事实也证明这个拟合效果很好,我们称之为 just right。
右边第三幅图则是一个更加极端的情况,我们使用一个四次多项式来拟合。通过我们的五个训练样本,我们可以得到如右图的一条曲线。
一方面,我们似乎对训练数据做了一个很好的拟合,因为这条 ...
「深度学习」卷积网络架构的演进:从 LeNet5 到 DenseNet
本文介绍CNNs的基础概念,网络结构及经典CNN模型。
0x00 概述卷积神经网络(CNN),听起来像是计算机科学、生物学和数学的诡异组合,但它们已经成为计算机视觉领域中最具影响力的革新的一部分。
卷积神经网络是一种带有卷积结构的深度神经网络,由纽约大学的Yann Lecun于1998年提出,其本质仍是一个多层感知机(MLP)。
但卷积神经网络在 2012 年才开始崭露头角,Alex Krizhevsky 凭借它们赢得了那一年的 ImageNet 挑战赛(大体上相当于计算机视觉的年度奥林匹克),他把分类误差记录从 26% 降到了 15%,在当时震惊了世界。自那之后,大量公司开始将深度学习用作服务的核心。Facebook 将神经网络用于自动标注算法、谷歌将它用于图片搜索、亚马逊将它用于商品推荐、Pinterest 将它用于个性化主页推送、Instagram 将它用于搜索架构。
CNN 成功的原因在于其所采用的局部连接和权值共享的方式:
一方面减少了参数的数量使得网络易于优化
另一方面降低了模型的复杂度,也就是减小了过拟合的风险
该优点在网络的输入是图像时表现的更为明显,使得图像可以直 ...
「影剧赏析」你呀,什么都不要担心 —— 《请回答1988》
持续更新中……
写在前面《请回答1988》,其实是在很早之前就种草的剧,但是第一次听见这个名字 “请回答1988” 再加上看到一集将近两个小时,让我产生了这是一部80年代冗长的家庭伦理剧的误解,险些与它无缘。
我记得是在准备考研期间,舍友天天抱着平板追这部剧,甚至走在去图书馆的路上也会哼一路的
“ 可带yo,阿木考早马次 吗拉yo”
我也在耳濡目染下听了很多个版本的《你不要担心》。不得不承认,我是先喜欢上这首曲子,才开始对这部剧也渐渐充满了好感。
在这之前,我看过的唯一一部韩剧是初中时和小伙伴们一起追的《继承者们》,加上火爆全宇宙的《来自星星的你》,让我一直对韩剧的印象就是男一男二女一女二之间造作的感情戏。
但是《请回答1988》彻底改观了我对韩剧的印象,上一部让我这样一个大男人泣不成声的影剧,是《山海情》。兴许是受到疫情的影响,兴许是在家里待得太久,也兴许是受到盖里老哥和饼叔的感染,我开始越发地关注到身边的小事,儿时玩伴间的一点一滴,广场上孩子们的嬉笑打闹,父母对自己无微不至的,真的是无微不至的言语举动…
我慢慢地意识到,最能打动我的,并不是撕心裂肺的爱情,而是亲情,是友情, ...