标签搜索

数据整理和探索性数据分析

冰封一夏
2021-08-05 07:47:05 / 1 阅读 / 正在检测是否收录...

数据很少以可用形式出现。数据争用和探索性数据分析是好的数据科学模型与垃圾输入,垃圾输出之间的区别。

数据整理和探索性数据分析

新手数据科学家有时会想到,他们所需要做的就是为他们的数据找到正确的模型,然后对其进行拟合。没有什么比数据科学的实际实践更遥远了。实际上,数据争用(也称为数据清理和数据处理)和探索性数据分析通常占用数据科学家80%的时间。

尽管从概念上讲,数据整理和探索性数据分析是多么容易,但很难正确地进行调整。未清除或不良清除的数据是垃圾,GIGO原理(垃圾进,垃圾出)在建模和分析中的应用与在数据处理的任何其他方面一样。

什么是数据争夺?

数据很少以可用形式出现。它经常被错误和遗漏所污染,很少具有所需的结构,并且通常缺乏上下文。数据整理是以下过程:发现数据,清理数据,对其进行验证,针对可用性进行结构化,丰富内容(可能通过添加来自公共数据的信息(例如天气和经济状况)),并且在某些情况下对数据进行汇总和转换。

确切地说,数据整理可能会有所不同。如果数据来自仪器或物联网设备,则数据传输可能是该过程的主要部分。如果数据将用于机器学习,则转换可以包括归一化或标准化以及降维。如果将在内存和存储空间有限的个人计算机上进行探索性数据分析,则处理过程可能包括提取数据子集。如果数据来自多个来源,则可能需要通过映射和转换来合并字段名称和度量单位。https://imasdk.googleapis.com/js/core/bridge3.447.1_en.html#goog_136274437700:00 of 28:40成交量0% 

什么是探索性数据分析?

探索性数据分析与普林斯顿大学的约翰·图基和贝尔实验室有着密切的联系。Tukey于1961年提出探索性数据分析的建议,并于1977年写了一本书。Tukey对探索性数据分析的兴趣影响了贝尔实验室S统计语言的发展,后来导致了S-Plus和R。

探索性数据分析是Tukey对他认为过分强调统计假设检验的反应,也称为验证性数据分析。两者之间的区别在于,在探索性数据分析中,您首先要研究数据并使用它来提出假设,而不是直接跳到假设并将直线和曲线拟合到数据上。

在实践中,探索性数据分析结合了图形和描述性统计信息。在受到广泛引用的一章中,Tukey使用R来直方图,核密度估计,箱形图,均值和标准差以及说明性图表来探索1990年代的越南经济。

ETL和ELT用于数据分析

在传统数据库用法中,ETL(提取,转换和加载)是从数据源(通常是事务性数据库)提取数据,将其转换为适合分析的结构,然后将其加载到数据仓库的过程。ELT(提取,加载和转换)是一个更现代的过程,其中数据以原始形式进入数据湖或数据仓库,然后数据仓库执行任何必要的转换。

无论您是拥有数据湖,数据仓库,还是以上所有功能,或者不具备以上任何功能,ELT流程比ETL流程更适合于数据分析,尤其是机器学习。造成这种情况的根本原因是,机器学习通常需要您在特征工程服务中迭代数据转换,这对于做出良好的预测非常重要。

屏幕抓取以进行数据挖掘

有时,您的数据以分析程序可以读取的形式(文件或通过API)可用。但是,当数据仅作为另一个程序的输出(例如在表格网站上)可用时,该怎么办?

使用模仿Web浏览器的程序来解析和收集Web数据并不难。该过程称为屏幕抓取,Web抓取或数据抓取。屏幕抓取最初是指从计算机终端屏幕上读取文本数据。如今,将数据显示在HTML网页中的情况已经越来越普遍。

清理数据并估算缺失值以进行数据分析

大多数原始的真实世界数据集都缺少或显然有错误的数据值。清除数据的简单步骤包括删除丢失值很高的列和行。您可能还希望在此过程的后期删除异常值。

有时,如果您遵循这些规则,则会丢失太多数据。处理缺失值的另一种方法是估算值。从本质上讲,这意味着猜测它们应该是什么。使用标准Python库很容易实现。

熊猫数据导入功能(例如read_csv())可以替换占位符,例如“?” 与“ NaN”。该Scikit_learn类SimpleImputer()列均值,中位数列,列模式,并不断:可以使用四种策略之一代替“男”值。对于恒定的替换值,数字字段的默认值为“ 0”,字符串或对象字段的默认值为“ missing_value”。您可以将设置fill_value为覆盖该默认设置。

哪种插补策略最好?这取决于您的数据和模型,因此唯一的了解方法就是全部尝试一下,看看哪种策略可以产生具有最佳验证准确性得分的拟合模型。

用于预测建模的特征工程

特征是被观察的现象的个体可测量特性或特征。特征工程是用于解释问题的最少一组独立变量的构造。如果两个变量高度相关,则要么需要将它们组合为一个功能,要么应将其删除。有时人们执行主成分分析(PCA),将相关变量转换为一组线性不相关变量。

通常以文本形式出现的分类变量必须编码为数字才能对机器学习有用。为每个类别(标签编码)分配一个整数似乎很容易,但是不幸的是,某些机器学习模型将整数误认为是普通数。一种流行的选择是单热编码,其中将每个类别分配给编码为1或0的列(或向量的维)。

特征生成是从原始观测值构造新特征的过程。例如,从Year_of_Death中减去Year_of_Birth,然后构造Age_at_Death,这是用于寿命和死亡率分析的主要自变量。深度特征综合算法可用于自动生成特征。您可以在开源Featuretools框架中找到它。

特征选择是从分析中消除不必要特征的过程,以避免“维数的诅咒”和数据的过拟合。降维算法可以自动执行此操作。技术包括删除具有许多缺失值的变量,删除具有低方差的变量,决策树,随机森林,删除或组合具有高相关性的变量,后向特征消除,前向特征选择,因子分析和PCA。

机器学习的数据标准化

要将数字数据用于机器回归,通常需要对数据进行规范化。否则,具有较大范围的数字可能趋于主导特征向量之间的欧几里得距离,其影响可能会以其他场为代价被放大,并且最陡的下降优化可能会难以收敛。有几种方法可以标准化和标准化用于机器学习的数据,包括最小-最大标准化,均值标准化,标准化和缩放到单位长度。此过程通常称为特征缩放。

数据分析生命周期

尽管数据分析生命周期中的变化可能与分析师中的变化一样多,但一种合理的表述可将其分为七个或八个步骤,具体取决于您希望的计数方式:

  1. 确定要理解的答案,以了解业务,并预测需要预测的变量。
  2. 采集数据(也称为数据挖掘)。
  3. 通过丢弃行或估算值来清理数据并考虑丢失的数据。
  4. 探索数据。
  5. 执行特征工程。
  6. 预测建模,包括机器学习,验证以及统计方法和测试。
  7. 数据可视化。
  8. 返回第一步(业务理解)并继续执行该循环。

第二步和第三步通常被认为是数据整理,但是通过识别要回答的业务问题来建立数据整理的环境很重要(第一步)。在建模之前进行探索性数据分析(第四步)也很重要,以避免在预测中引入偏差。通常需要重复执行第五到第七步,以找到最佳的模型和功能集。

是的,生命周期几乎总是在您认为完成后重新启动,这是因为条件改变,数据漂移或业务需要回答其他问题。

0

评论

博主关闭了所有页面的评论