Python示例中的Pandas DataFrame describe()方法
Pandas DataFrame describe()方法用于计算一些统计数据,例如DataFrame不同数值的百分位数,均值和标准差。它用于分析数值,对象系列以及数据框,该数据框具有混合数据类型的列集。 describe()方法用于提供有关数据集的所有基本信息,可将其进一步用于数据分析并得出不同的数学假设以供进一步研究。 DataFrame describe()函数正在处理Pandas库的统计部分。
句法
DataFrame.describe(percentiles= None, include= None, exclude=None)
参量
describe()函数包含三个参数。
- percentile:这是一个可选参数。它是一个列表,类似于数字的数据类型,应在0到1之间。默认值为 [.25,.5.75] 对于给定的列表,它返回精确的25%,50%和75%百分位数。
- 包括:它也是可选参数,在描述数据帧时包括不同数据类型的列表。
- ‘全部’:所有输入列将包含在结果中。
- dtype的列表类型:将结果限制为提供的数据类型。要将输出限制为数字类型,请提交numpy.number。要限制它而不是对象列,请提交numpy.object数据类型。 Python字符串也可以以select_dtypes的样式使用(例如df.describe(include =[‘O’]))。要选择熊市猫的分类列,请使用“类别”。
- 无(默认):结果将包括所有数字列。其默认值为无。
- exclude:也是可选参数。它用于在描述数据帧时排除数据类型列表。
- 列表类型的dtypes:从结果中排除提供的数据类型。要排除数字类型,请提交numpy.number。要排除对象列,请提交数据类型numpy.object。也可以使用select_dtypes样式的Python字符串(例如df.describe(include =[‘O’]))。要排除熊市猫分类列,请使用“ category”。
- 其默认值也为“无”。
返回值
describe()函数返回DataFrame的统计摘要。
例
示例:编写一个程序来演示describe()方法的工作。
import pandas as pd import numpy as np numeric_dataset = pd.Series([1, 2, 3, 4, 5, 6, 6, 7, 7, 8, 8, 8, 8, 8]) print(numeric_dataset.describe())
输出量
count 14.000000 mean 5.785714 std 2.423557 min 1.000000 25% 4.250000 50% 6.500000 75% 8.000000 max 8.000000 dtype: float64
在这里,我们可以看到,我们已经传递了一系列数字,然后使用describe()方法从这些数字中找出所有基本信息,这些信息围绕着数学统计数据。在第一行中,我们可以看到列表中的元素数量,此后为14,即标准偏差,然后是最小值和不同季度的百分位值,依此类推。
编写一个程序以在字符列表上使用describe函数。
import pandas as pd import numpy as np char_dataset = pd.Series(['a', 'b', 'b', 'c', 'd']) print(char_dataset.describe())
输出量
count 5 unique 4 top b freq 2 dtype: object
在这里我们可以看到已经传递了一个字符列表,并且在describe函数中,它已被识别为一个对象,该对象为我们提供了总元素数而不是所有唯一元素的计数。我们可以看到这里插入了5个元素,但是所有唯一元素的计数都等于4,因为“ b”重复了两次。
使用Python Jupyter Notebook
以上所有示例均可在Jupyter Notebook上运行。
让我们导入CSV文件,然后使用pandas read_csv()函数将CSV转换为DataFrame。
您可以从此处下载文件:ratings.csv。
好的,现在打开Jupyter笔记本并导入Pandas和Numpy库。
下一步是使用Pandas的read_csv()函数并传递ratings.csv文件。
之后,您将获得DataFrame,然后可以在该DataFrame上调用describe()方法。
如输出图像中所示,返回了DataFrame的统计描述以及分别传递的百分位。您可以看到Series或DataFrame的数值的计数,平均值,最大值,百分位数,平均值和标准差。
结论
熊市猫describe()方法用于查看一些基本统计细节,例如DataFrame或一系列数值的百分位数,均值,std等。
也可以看看
熊市猫DataFrame join()
比较两个数据框的值
Pandas.ExcelWriter()