NumPy是代表“Numerical Python”的Python包。 它是一个由多维数组对象和一组处理数组的例程组成的库。 NumPy操作 使用NumPy,开发人员可以执行以下操作 – 数组的数学和逻辑运算…
标签:Python数据科学
Python读取HTML页面
有一个类库叫作beautifulsoup。 使用这个库,可以搜索html标签的值,并获取页面标题和页面标题列表等特定数据。 安装Beautifulsoup使用Anaconda软件包管理器安装所需的软件包及其相关软件包。 …
Python关系数据库
我们可以连接到关系数据库以使用Pandas库分析数据,以及另一个用于实现数据库连接的额外库。 这个软件包被命名为sqlalchemy,它提供了在python中使用的完整的SQL语言功能。 安装SQLAlchemy 使用在…
Python词干与词形化
在自然语言处理领域,我们遇到了两个或两个以上单词具有共同根源的情况。 例如,agreed, agreeing 和 agreeable这三个词具有相同的词根。 涉及任何这些词的搜索应该把它们当作是根词的同一个词。 因此将所…
Python Pandas库
Pandas是一个开源的Python库,用于使用其强大的数据结构进行高性能数据处理和数据分析。 Python和Pandas在各种学术和商业领域都有应用,其中包括金融,经济学,统计学,广告,网络分析等等。 使用Pandas…
Python数据噪音
数据处理涉及以各种格式处理数据,例如合并,分组,连接等,以便分析或准备将其与另一组数据一起使用。 Python具有内置函数功能,可将这些争议方法应用于各种数据集以实现分析目标。 在本章中,我们将看几个基于这些方法的例子。…
Python P值
p值是关于假设的强度。 我们基于一些统计模型建立假设,并使用p值比较模型的有效性。 获得p值的一种方法是使用T检验。 这是对零假设的双侧检验,即独立观察值'a'的样本的期望值(平均值)等于给定的总体均值popmean。看…
Python处理Excel数据
Microsoft Excel是一个使用非常广泛的电子表格程序。 它的用户友好性和吸引人的功能使其成为数据科学中常用的工具。 Panadas库提供了一些功能,我们可以使用该功能完整地读取Excel文件,也可以只读取选定的…
Python数据操作
Python主要通过Pandas和Numpy这两个库来处理各种格式的数据。 我们已经在前面的章节中看到了这两个库的重要特征。 在本章中,我们将看到每个库中关于如何操作数据的一些基本示例。 Numpy中的数据操作 NumP…
Python数据聚合
Python有几种方法可用于对数据执行聚合。 它使用Pandas和numpy库完成。 数据必须可用或转换为数据框才能应用聚合功能。 在DataFrame上应用聚合 创建一个DataFrame并在其上应用聚合。 impor…
Python测量方差
在统计中,方差是衡量数据集中的值与平均值相差多少的指标。 换句话说,它表示值的分散程度。 它通过使用标准偏差来衡量。 另一种常用的方法是偏斜。 这两个都是通过使用pandas库中可用的函数来计算的。 测量标准偏差 标准偏…
Python处理非结构数据
已经以行和列格式存在的数据或者可以很容易地转换为行和列的数据,以便之后它可以很好地适合数据库,这被称为结构化数据。 例如CSV,TXT,XLS文件等。这些文件有一个分隔符,固定宽度或可变宽度,其中缺失值在分隔符之间表示为…