Python示例中的Pandas DataFrame describe()方法

Pandas DataFrame describe()方法用于计算一些统计数据,例如DataFrame不同数值的百分位数,均值和标准差。它用于分析数值,对象系列以及数据框,该数据框具有混合数据类型的列集。 describe()方法用于提供有关数据集的所有基本信息,可将其进一步用于数据分析并得出不同的数学假设以供进一步研究。 DataFrame describe()函数正在处理Pandas库的统计部分。

句法

DataFrame.describe(percentiles= None, include= None, exclude=None)

参量

describe()函数包含三个参数。

  • percentile:这是一个可选参数。它是一个列表,类似于数字的数据类型,应在0到1之间。默认值为 [.25,.5.75] 对于给定的列表,它返回精确的25%,50%和75%百分位数。
  • 包括:它也是可选参数,在描述数据帧时包括不同数据类型的列表。
    • ‘全部’:所有输入列将包含在结果中。
    • dtype的列表类型:将结果限制为提供的数据类型。要将输出限制为数字类型,请提交numpy.number。要限制它而不是对象列,请提交numpy.object数据类型。 Python字符串也可以以select_dtypes的样式使用(例如df.describe(include =[‘O’]))。要选择熊市猫的分类列,请使用“类别”。
    • 无(默认):结果将包括所有数字列。其默认值为无。
  • exclude:也是可选参数。它用于在描述数据帧时排除数据类型列表。
    • 列表类型的dtypes:从结果中排除提供的数据类型。要排除数字类型,请提交numpy.number。要排除对象列,请提交数据类型numpy.object。也可以使用select_dtypes样式的Python字符串(例如df.describe(include =[‘O’]))。要排除熊市猫分类列,请使用“ category”。
    • 其默认值也为“无”。

返回值

describe()函数返回DataFrame的统计摘要。

示例:编写一个程序来演示describe()方法的工作。

import pandas as pd
import numpy as np

numeric_dataset = pd.Series([1, 2, 3, 4, 5, 6, 6, 7, 7, 8, 8, 8, 8, 8])
print(numeric_dataset.describe())

输出量

count    14.000000
mean      5.785714
std       2.423557
min       1.000000
25%       4.250000
50%       6.500000
75%       8.000000
max       8.000000
dtype: float64

在这里,我们可以看到,我们已经传递了一系列数字,然后使用describe()方法从这些数字中找出所有基本信息,这些信息围绕着数学统计数据。在第一行中,我们可以看到列表中的元素数量,此后为14,即标准偏差,然后是最小值和不同季度的百分位值,依此类推。

编写一个程序以在字符列表上使用describe函数。

import pandas as pd
import numpy as np

char_dataset = pd.Series(['a', 'b', 'b', 'c', 'd'])
print(char_dataset.describe())

输出量

count     5
unique    4
top       b
freq      2
dtype: object

在这里我们可以看到已经传递了一个字符列表,并且在describe函数中,它已被识别为一个对象,该对象为我们提供了总元素数而不是所有唯一元素的计数。我们可以看到这里插入了5个元素,但是所有唯一元素的计数都等于4,因为“ b”重复了两次。

使用Python Jupyter Notebook

以上所有示例均可在Jupyter Notebook上运行。

让我们导入CSV文件,然后使用pandas read_csv()函数将CSV转换为DataFrame。

您可以从此处下载文件:ratings.csv。

好的,现在打开Jupyter笔记本并导入Pandas和Numpy库。

Python Jupyter笔记本

下一步是使用Pandas的read_csv()函数并传递ratings.csv文件。

之后,您将获得DataFrame,然后可以在该DataFrame上调用describe()方法。

熊市猫DataFrame describe()

如输出图像中所示,返回了DataFrame的统计描述以及分别传递的百分位。您可以看到Series或DataFrame的数值的计数,平均值,最大值,百分位数,平均值和标准差。

结论

熊市猫describe()方法用于查看一些基本统计细节,例如DataFrame或一系列数值的百分位数,均值,std等。

也可以看看

熊市猫DataFrame join()

比较两个数据框的值

Pandas.ExcelWriter()

资讯来源:由0x资讯编译自APPDIVIDEND,版权归作者Ankit Lathiya所有,未经许可,不得转载
你可能还喜欢