2.2 经典爱丽丝_Python机器学习与量化投资-QQ阅读女生仙侠网

书名：Python机器学习与量化投资
作者名：何海群
本章字数：1546字
更新时间：2020-08-27 22:20:54

2.2　经典爱丽丝

Iris（爱丽丝）数据集是机器学习最经典的数据集，全称是安德森鸢尾花卉数据集，是统计学习的必备数据集，图2.1是爱丽丝数据集的特征分类图。

图2.1　爱丽丝数据集的特征分类图

维基百科有专门的词条。

安德森鸢尾花卉数据集（Anderson's Iris data set），也称鸢尾花卉数据集（Iris flower data set）或费雪鸢尾花卉数据集（Fisher's Iris data set），是一类多重变量分析的数据集。它最初是埃德加·安德森从加拿大加斯帕半岛上的鸢尾属花朵中提取的地理变异数据，后由罗纳德·费雪作为判别分析的一个例子，并运用到统计学中。其数据集包含了50个样本，都属于鸢尾属下的三个亚属，分别是山鸢尾、变色鸢尾和维吉尼亚鸢尾。其4个特征被用作样本的定量分析，即花萼和花瓣的长度和宽度。基于这4个特征的集合，费雪发展了线性判别分析以确定其属种。

我们的目的就是通过编程，对这3种不同种类的爱丽丝植物的数据，采用专业的数据分析手段和人工智能算法，让程序自动判断植物的种类。

由于sklearn发布很早，当时还没有pandas等新一代数据分析软件，所以sklearn为了保证运行速度，直接使用NumPy模块库的ndarray多维数组作为数据源和内部的数据格式。

近几年发布的TensorFlow、MXNet等神经网络、深度学习平台，为了提高效率，在数据接口部分也直接使用NumPy模块库的ndarray多维数组格式。

不过NumPy模块库的ndarray多维数组是侧重性能的数据格式，在应用方面非常烦琐。

目前，随着pandas等新一代数据分析软件的普及和推广，以及一线开发人员对效率的考虑，越来越多的项目开始使用pandas的DataFrame数据框架作为数据保存格式，从而方便调试程序，交换数据。

本书的各个案例都是基于pandas优先的模式，尽量直接使用DataFrame数据框架作为程序中间数据，只是在必须使用NumPy模块库的ndarray多维数组格式时，才转换为相应的格式。

有关数据转换的细节，我们会在案例当中具体说明。全程采用pandas学习sklearn人工智能，方便初学者把握数据内部的结构和细节。

传统的sklearn人工智能文档，大部分直接采用NumPy数组模块，而NumPy是为了追求极限性能设计的模块库，很多算法函数非常复杂，不亚于汇编。

从某种程度上讲，绝大部分初学者的人工智能学习之路，在起步阶段就被NumPy这个模块库给吓退了。

本书全部采用现有的pandas命令，从数据源对sklearn进行整合，无须学习额外的语法，更加方便初学者入门。