机器学习基础（一）理解机器学习的本质-程序员宅基地

导读：在本文中，将深入探索机器学习的根本原理，包括基本概念、分类及如何通过构建预测模型来应用这些理论。

机器学习

机器学习概念

机器学习是人工智能的一个分支，是一门开发算法和统计模型的科学，计算机系统使用这些算法和模型，在没有明确指令的情况下，依靠既有模式和推理来执行任务。在机器学习中，算法使用统计技术来使计算机能够“学习”数据，并基于这些数据做出预测或决策，而不是依靠严格的硬编码指令。机器学习这个领域的起源可以追溯到20世纪50年代，当时科学家们开始探索如何使计算机模拟人类学习过程。

在机器学习探索和尝试的历史中，有几个关键时刻值得一提。例如，20世纪80年代的神经网络的复兴，以及2006年深度学习概念的提出，这些都极大推动了机器学习的发展。如今，随着计算能力的飞速提升和大数据的普及，机器学习开始快速发展，成为现代技术不可或缺的一部分，从智能手机应用到复杂的股市分析系统，机器学习无处不在，它正在塑造我们的生活方式和工作方式。

机器学习之所以重要，是因为它为处理大量数据、发现模式、做出预测和决策提供了一种高效的方法。在医疗、金融、教育、零售等众多行业中，机器学习的应用都在带来革命性的变化，比如，医疗领域中的机器学习可以帮助诊断疾病、预测疾病进展，金融领域中则可以用于风险评估和欺诈检测。

随着我们深入本章的学习，读者不仅将在理论上理解探讨机器学习，也将通过实战案例和代码示例来加深理解，这些实战案例将覆盖从数据准备、模型构建到优化和模型评估的整个流程。我们会提供完整的程序代码，以及对这些代码的详细解释，确保即使是AI领域的新手也能跟上学习的步伐。

相关概念

要深入理解机器学习，首先需要掌握几个核心概念。这些概念是机器学习理论的基石，对于理解如何构建和应用机器学习模型至关重要。

机器学习根本：模型

在机器学习中，模型是指从数据中学习的算法。可以将其视为一种根据输入数据（特征）来做出预测或决策的系统。模型的训练过程涉及使用已知的数据集来调整其内部参数，使其能够准确地预测未见过的数据。

模型训练的基本步骤包括：

选择模型：根据问题的性质选择适当的机器学习算法。
训练数据：提供包含特征（解释变量）和标签（目标变量）的数据集。
学习过程：算法通过分析训练数据来学习模式和关系。
评估与调整：使用独立的测试集评估模型的性能，并根据需要进行调整。

数据的语言：特征与标签

在机器学习中，我们通常将数据分为两类：特征和标签。特征是输入数据，是模型用来进行预测的信息。例如，房价预测模型的数据集结构应该是：

特征	类型	描述
id	整数	房屋唯一标识符
longitude	浮点数	房屋地理位置的经度
latitude	浮点数	房屋地理位置的纬度
housing_median_age	整数	房屋的中位年龄
total_rooms	整数	房屋内的房间总数
total_bedrooms	整数	房屋内的卧室总数
population	整数	房屋所在区域的人口总数
households	整数	房屋所在区域的家庭总数
median_income	浮点数	区域内家庭的收入中位数
ocean_proximity	文本	房屋靠近海洋的位置
median_house_value	浮点数	房屋的中位价值（标签）

特征可能包括房屋的面积、房间数量、地理位置等信息，标签则是开发者想要预测的结果，在此类中表示房屋的售价。

训练与测试：模型评估

为了验证模型的有效性，我们需要将数据分为训练集和测试集。训练集用于构建和优化模型，而测试集则用于评估模型的性能。这种划分帮助我们理解模型对新数据的泛化能力，即其在实际应用中的表现。

在这个过程中，需要特别关注两个常见问题：过拟合和欠拟合。过拟合发生在模型过于复杂，过度学习训练数据的细节和噪声，而不足以泛化到新数据的情况，它对训练数据中的特定特征过度敏感，包括一些不规则和随机的误差，过拟合的模型在训练数据上表现得非常好，但是在新的、未见过的数据上表现不佳。相反，欠拟合则是模型过于简单，不能充分学习数据中的模式，可能是由于模型过于简单（例如，参数太少或模型结构不够复杂）或者训练数据中的特征不足以捕捉到决定输出的关键因素，欠拟合的模型不但在训练数据上表现不佳，而且在新数据上同样表现有所欠缺。

在欠拟合情况下，即使随着时间的增加训练次数增多，训练集和测试集的成功率提升都非常有限，说明模型未能充分学习数据中的模式。训练集和测试集的成功率曲线都比较平坦，且测试集的成功率通常低于训练集，尽管训练时间延长，训练集和验证集的成功率仍然只是缓慢提高，欠拟合成功率折线图如图：

对于过拟合情况，通常为训练集成功率随时间显著提高而测试集成功率先提高后下降或停滞不前，反映出模型对训练数据过度拟合而泛化能力差。这种情况下，训练集和测试集之间的准确率会有明显差距，表明模型对未见数据的预测性能不佳，过拟合成功率折线图如图：

在一个正常拟合的情况下，训练集和验证集的准确率都会随着时间的推移而提高，并且两者之间的差距不会太大，这表明模型既学习了数据中的足够信息，又保持了良好的泛化能力。正常拟合成功率折线图如图：

机器学习的分类

机器学习的方法多种多样，不同的方法适用于不同类型的问题，主要的机器学习方法可以分为3类：监督学习、非监督学习和强化学习。理解这些分类方法的使用场景有助于读者选择正确的方法来解决特定的问题。

监督学习：有指导的学习过程

监督学习是最常见的机器学习类型之一。在监督学习方法下，我们提供给模型的训练数据既包括特征也包括相应的标签。模型的任务是学习如何将特征映射到标签，从而能够对新的、未标记的数据做出预测。常见的监督学习任务包括分类（预测离散标签）和回归（预测连续标签）。例如，根据患者的临床数据来预测是否患有特定疾病（分类），或者预测房屋的售价（回归）。

非监督学习：自我探索的过程

与监督学习不同，非监督学习的训练数据不包含任何标签。非监督学习的目标是让模型自己探索数据并找出其中的结构。常见的非监督学习任务包括聚类和降维。一个典型的例子是市场细分，其中模型会根据客户的购买行为将其分为不同的群体。

聚类：发现数据中的自然群体
降维：减少数据的复杂性，同时保留重要信息

强化学习：通过试错学习

强化学习与监督学习和非监督学习有所不同，在强化学习模式下，智能体通过与环境交互从而进行学习。也就是说强化学习不是从标记好的数据集中学习，而是根据事物行为的结果来学习。这个结果通常以奖励的形式给出。强化学习在游戏（如国际象棋和围棋）、机器人导航以及在线推荐系统中得到了广泛的应用。

构建与分析鸢尾花数据模型

首次使用scikit-learn库，需要先进行安装。scikit-learn，也称为sklearn，是Python中最流行的机器学习库之一，它提供了广泛的工具和算法来处理常见的机器学习任务。安装sklearn库时，可以在命令行或终端中，输入以下命令：pip install scikit-learn。

鸢尾花数据集简介

鸢尾花数据集是机器学习中最著名的数据集之一，包含150个样本，每个样本有4个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度），用于预测鸢尾花的种类（共有三种：Setosa、Versicolour、Virginica）。

加载数据集

 from sklearn.datasets import load_iris

 iris = load_iris()
 x, y = iris.data, iris.target

创建和训练模型

接下来，我们将使用一个简单的分类算法，即决策树来训练模型。决策树是直观运用概率分析的一种图解法，是一个基于分支的树模型，其中，每个内部结点表示在一个属性上的测试，每个分支代表一个属性输出，而每一个树叶结点代表类或类分布，树的最顶层是根结点。在这里，我们首先导入DecisionTreeClassifier，然后创建一个决策树分类器的实例，并使用鸢尾花数据对其进行训练:

 from sklearn.tree import DecisionTreeClassifier

 model = DecisionTreeClassifier()
 model.fit(X, y)

进行预测与评估模型

模型一旦训练完成，就可以用来进行数据预测，同时，也可以用来评估模型的性能。在实际应用中，一般会将数据分为独立的训练集和测试集，本例为了简化运算，是在同一数据集上进行的训练和测试，对数据集中的每个样本进行分类预测.

 #进行预测
 predictions = model.predict(X)

 #评估模型
 from sklearn.metrics import accuracy_score

 #这会输出模型在整个数据集上的准确率
 print(accuracy_score(y, predictions))

下一节我们将详细讲解监督学习和非监督学习，以及一个实战案例：预测房价

机器学习基础（二）监督与非监督学习-程序员宅基地更深入地探讨监督学习和非监督学习的知识，重点关注它们的理论基础、常用算法及实际应用场景。https://blog.csdn.net/qq_52213943/article/details/136163917?spm=1001.2014.3001.5501

-----------------

以上，欢迎点赞收藏、评论区交流

本文链接：https://blog.csdn.net/qq_52213943/article/details/136162632

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

linux里面ping www.baidu.com ping不通的问题_linux桥接ping不通baidu-程序员宅基地

文章浏览阅读3.2w次，点赞16次，收藏90次。对于这个问题我也是从网上找了很久，终于解决了这个问题。首先遇到这个问题，应该确认虚拟机能不能正常的上网，就需要ping 网关，如果能ping通说明能正常上网，不过首先要用命令route -n来查看自己的网关，如下图：第一行就是默认网关。现在用命令ping 192.168.1.1来看一下结果：然后可以看一下电脑上面百度的ip是多少可以在linux里面ping 这个IP，结果如下：..._linux桥接ping不通baidu

android 横幅弹出权限,有关 android studio notification 横幅弹出的功能没有反应-程序员宅基地

文章浏览阅读512次。小妹在这里已经卡了2-3天了，研究了很多人的文章，除了低版本api 17有成功外，其他的不是channel null 就是没反应 (channel null已解决)拜托各位大大，帮小妹一下，以下是我的程式跟 gradle, 我在这里卡好久又没有人可问(哭)![image](/img/bVcL0Qo)public class MainActivity extends AppCompatActivit..._android 权限申请弹窗横屏

CNN中padding参数分类_cnn “相同填充”(same padding)-程序员宅基地

文章浏览阅读1.4k次，点赞4次，收藏6次。valid padding（有效填充）：完全不使用填充。half/same padding（半填充/相同填充）：保证输入和输出的feature map尺寸相同。full padding（全填充）：在卷积操作过程中，每个像素在每个方向上被访问的次数相同。arbitrary padding（任意填充）：人为设定填充。..._cnn “相同填充”(same padding)

Maven的基础知识，java技术栈-程序员宅基地

文章浏览阅读790次，点赞29次，收藏28次。手绘了下图所示的kafka知识大纲流程图（xmind文件不能上传，导出图片展现），但都可提供源文件给每位爱学习的朋友一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！[外链图片转存中…(img-Qpoc4gOu-1712656009273)][外链图片转存中…(img-bSWbNeGN-1712656009274)]

getFullYear()和getYear()有什么区别_getyear和getfullyear-程序员宅基地

文章浏览阅读469次。Date对象取得年份有getYear和getFullYear两种方法经测试var d=new Date;alert(d.getYear())在IE中返回 2009，在Firefox中会返回109。经查询手册，getYear在Firefox下返回的是距1900年1月1日的年份，这是一个过时而不被推荐的方法。而alert(d.getFullYear())在IE和FF中都会返回2009。因此，无论何时都应使用getFullYear来替代getYear方法。例如：2016年用 getFullYea_getyear和getfullyear

Unix传奇（上篇）_unix传奇pdf-程序员宅基地

文章浏览阅读182次。Unix传奇(上篇) 陈皓了解过去，我们才能知其然，更知所以然。总结过去，我们才会知道我们明天该如何去规划，该如何去走。在时间的滚轮中，许许多的东西就像流星一样一闪而逝，而有些东西却能经受着时间的考验散发着经久的魅力，让人津津乐道，流传至今。要知道明天怎么去选择，怎么去做，不是盲目地跟从今天各种各样琳琅满目前沿技术，而应该是去 —— 认认真真地了解和回顾历史。 Unix是目前还在存活的操作系_unix传奇pdf

随便推点

ACwing 哈希算法入门：_ac算法哈希-程序员宅基地

文章浏览阅读308次。哈希算法：将字符串映射为数字形式，十分巧妙，一般运用为进制数，进制据前人经验，一般为131，1331时重复率很低，由于字符串的数字和会很大，所以一般为了方便，一般定义为unsigned long long,爆掉时，即为对 2^64 取模，可以对于任意子序列的值进行映射为数字进而进行判断入门题目链接：AC代码：#include<bits/stdc++.h>using na..._ac算法哈希

VS配置Qt和MySQL_在vs中如何装qt5sqlmysql模块-程序员宅基地

文章浏览阅读952次，点赞13次，收藏27次。由于觉得Qt的编辑界面比较丑，所以想用vs2022的编辑器写Qt加MySQL的项目。_在vs中如何装qt5sqlmysql模块

【渝粤题库】广东开放大学互联网营销形成性考核_画中画广告之所以能有较高的点击率,主要由于它具有以下特点-程序员宅基地

文章浏览阅读1k次。选择题题目：下面的哪个调研内容属于经济环境调研？（）题目：（）的目的就是加强与客户的沟通，它是是网络媒体也是网络营销的最重要特性。题目：4Ps策略中4P是指产品、价格、顾客和促销。题目：网络市场调研是目前最为先进的市场调研手段，没有任何的缺点或不足之处。题目：市场定位的基本参数有题目：市场需求调研可以掌握（）等信息。题目：在开展企业网站建设时应做好以下哪几个工作。（）题目：对企业网站首页的优化中，一定要注意下面哪几个方面的优化。（）题目：（）的主要作用是增进顾客关系，提供顾客服务，提升企业_画中画广告之所以能有较高的点击率,主要由于它具有以下特点

爬虫学习（1）：urlopen库使用_urlopen the read operation timed out-程序员宅基地

文章浏览阅读1k次，点赞2次，收藏5次。以爬取CSDN为例子：第一步：导入请求库第二步：打开请求网址第三步：打印源码import urllib.requestresponse=urllib.request.urlopen("https://www.csdn.net/?spm=1011.2124.3001.5359")print(response.read().decode('utf-8'))结果大概就是这个样子：好的，继续，看看打印的是什么类型的：import urllib.requestresponse=urllib.r_urlopen the read operation timed out

分享读取各大主流邮箱通讯录(联系人)、MSN好友列表的的功能【升级版(3.0)】-程序员宅基地

文章浏览阅读304次。修正sina.com/sina.cn邮箱获取不到联系人，并精简修改了其他邮箱代码，以下就是升级版版本的介绍：完整版本，整合了包括读取邮箱通讯录、MSN好友列表的的功能，目前读取邮箱通讯录支持如下邮箱：gmail(Y)、hotmail(Y)、 live(Y)、tom(Y)、yahoo(Y)(有点慢)、 sina(Y)、163(Y)、126(Y)、yeah(Y)、sohu(Y) 读取后可以发送邮件(完..._通讯录应用读取邮件的相关

云计算及虚拟化教程_云计算与虚拟化技术教改-程序员宅基地

文章浏览阅读213次。云计算及虚拟化教程学习云计算、虚拟化和计算机网络的基本概念。此视频教程共2.0小时，中英双语字幕，画质清晰无水印，源码附件全课程英文名：Cloud Computing and Virtualization An Introduction百度网盘地址：https://pan.baidu.com/s/1lrak60XOGEqMOI6lXYf6TQ?pwd=ns0j课程介绍：https://www.aihorizon.cn/72云计算：概念、定义、云类型和服务部署模型。虚拟化的概念使用 Type-2 Hyperv_云计算与虚拟化技术教改