已经以行和列格式存在的数据或者可以很容易地转换为行和列的数据,以便之后它可以很好地适合数据库,这被称为结构化数据。 例如CSV,TXT,XLS文件等。这些文件有一个分隔符,固定宽度或可变宽度,其中缺失值在分隔符之间表示为…
标签:Python数据科学
Python读取HTML页面
有一个类库叫作beautifulsoup。 使用这个库,可以搜索html标签的值,并获取页面标题和页面标题列表等特定数据。 安装Beautifulsoup使用Anaconda软件包管理器安装所需的软件包及其相关软件包。 …
Python数据聚合
Python有几种方法可用于对数据执行聚合。 它使用Pandas和numpy库完成。 数据必须可用或转换为数据框才能应用聚合功能。 在DataFrame上应用聚合 创建一个DataFrame并在其上应用聚合。 impor…
Python数据噪音
数据处理涉及以各种格式处理数据,例如合并,分组,连接等,以便分析或准备将其与另一组数据一起使用。 Python具有内置函数功能,可将这些争议方法应用于各种数据集以实现分析目标。 在本章中,我们将看几个基于这些方法的例子。…
Python日期和时间
通常在数据科学中,我们需要基于时间值的分析。 Python可以优雅地处理各种格式的日期和时间。 日期时间库提供了必要的方法和函数来处理下列情况。 日期时间表示 日期时间算术 日期时间比较 接下来,我们将会逐个学习。 日期…
Python NoSQL数据库
随着越来越多的数据以非结构化或半结构化的方式来提供,需要通过NoSql数据库来管理它们。 Python也可以以与关系数据库交互的相似方式与NoSQL数据库进行交互。 在本章中,我们将使用python作为NoSQL数据库与…
Python关系数据库
我们可以连接到关系数据库以使用Pandas库分析数据,以及另一个用于实现数据库连接的额外库。 这个软件包被命名为sqlalchemy,它提供了在python中使用的完整的SQL语言功能。 安装SQLAlchemy 使用在…
Python处理Excel数据
Microsoft Excel是一个使用非常广泛的电子表格程序。 它的用户友好性和吸引人的功能使其成为数据科学中常用的工具。 Panadas库提供了一些功能,我们可以使用该功能完整地读取Excel文件,也可以只读取选定的…
Python处理Json数据
JSON文件以可读的格式将数据存储为文本。 JSON代表JavaScript Object Notation。 使用read_json函数,Pandas可以读取JSON文件。 输入数据 通过将以下数据复制到文本编辑器(如…
Python处理CSV数据
从CSV读取数据(逗号分隔值)是数据科学的基本需求。 通常,我们从各种来源获取数据,这些数据可以导出为CSV格式,以便其他系统可以使用这些数据。 Panadas库提供了一些功能函数,我们可以使用该功能完整地读取CSV文件…
Python数据清理
数据丢失在现实生活中是一个问题。 机器学习和数据挖掘等领域由于数据缺失导致数据质量差,因此在模型预测的准确性方面面临严峻的问题。 在这些领域,缺失值处理是使模型更加准确和有效的关键。 何时以及为什么数据丢失? 让我们考虑…
Python数据操作
Python主要通过Pandas和Numpy这两个库来处理各种格式的数据。 我们已经在前面的章节中看到了这两个库的重要特征。 在本章中,我们将看到每个库中关于如何操作数据的一些基本示例。 Numpy中的数据操作 NumP…