Polar 计算百分位数
我有一个极坐标数据框,其中有一列包含日期,其他列包含价格,我想计算 252 x 3 观测值窗口中每个列的百分位数。
为此,我正在这样做:
prices = prices.sort(by=["date"]) rank_cols = list(set(prices.columns).difference("date")) percentiles = ( prices.sort(by=["date"]) .set_sorted("date") .group_by_dynamic( index_column=["date"], every="1i", start_by="window", period="756i" ) .agg( [ (pl.col(col).rank() * 100.0 / pl.col(col).count()).alias( f"{col}_percentile" ) for col in rank_cols ] ) )
但是抛出的异常是:
traceback (most recent call last): file "<string>", line 6, in <module> file "/usr/local/lib/python3.10/site-packages/polars/dataframe/group_by.py", line 1047, in agg self.df.lazy() file "/usr/local/lib/python3.10/site-packages/polars/lazyframe/frame.py", line 1706, in collect return wrap_df(ldf.collect()) polars.exceptions.invalidoperationerror: argument in operation 'group_by_dynamic' is not explicitly sorted - if your data is already sorted, set the sorted flag with: '.set_sorted()'. - if your data is not sorted, sort the 'expr/series/column' first.
在代码中,我已经按照建议执行了操作,但异常仍然存在。
编辑:
根据@hericks的建议进行一些更改。
import polars as pl import pandas as pd from datetime import datetime, timedelta # generate 10 dates starting from today start_date = datetime.now().date() date_list = [start_date + timedelta(days=i) for i in range(10)] # generate random prices for each date and column data = { 'date': date_list, 'asset_1': [float(f"{i+1}.{i+2}") for i in range(10)], 'asset_2': [float(f"{i+2}.{i+3}") for i in range(10)], 'asset_3': [float(f"{i+3}.{i+4}") for i in range(10)], } prices = pl.dataframe(data) prices = prices.cast({"date": pl.date}) rank_cols = list(set(prices.columns).difference("date")) percentiles = ( prices.sort(by=["date"]) .set_sorted("date") .group_by_dynamic( index_column="date", every="1i", start_by="window", period="4i" ) .agg( [ (pl.col(col).rank() * 100.0 / pl.col(col).count()).alias( f"{col}_percentile" ) for col in rank_cols ] ) )
现在我明白了
pyo3_runtime.panicexception: attempt to divide by zero
编辑2:
问题是日期的使用,我用整数更改了日期,然后就解决了问题。 (还添加了先取第一个寄存器)
import polars as pl int_list = [i+1 for i in range(6)] # Generate random prices for each date and column data = { 'int_index': int_list, 'asset_1': [1.1, 3.4, 2.6, 4.8, 7.4, 3.2], 'asset_2': [4, 7, 8, 3, 4, 5], 'asset_3': [1, 3, 10, 20, 2, 4], } # Convert the Pandas DataFrame to a Polars DataFrame prices = pl.DataFrame(data) rank_cols = list(set(prices.columns).difference("int_index")) percentiles = ( prices.sort(by="int_index") .set_sorted("int_index") .group_by_dynamic( index_column="int_index", every="1i", start_by="window", period="4i" ) .agg( [ (pl.col(col).rank().first() * 100.0 / pl.col(col).count()).alias( f"{col}_percentile" ) for col in rank_cols ] ) )
编辑3:
给出的想法是,索引 i 取索引 i、i+1、i+2、i+3 上的值,并计算寄存器 i 相对于这四个值的百分位等级。
例如,对于 asset_1 中的第一个索引 (1),示例(以及接下来的三个寄存器)为:
1.1、3.4、2.6、4.8,因此第一个寄存器的百分位数为 25
对于 asset_1,第二个索引 (2) 示例(以及接下来的三个寄存器)是:
3.4、2.6、4.8 和 7.4,因此百分位数为 50。
正确答案
我仍然有点猜测您期望的答案是什么,但您可能可以从这个答案开始
因此,考虑到您的示例数据:
import polars as pl # generate random prices for each date and column prices = pl.dataframe({ 'int_index': range(6), 'asset_1': [1.1, 3.4, 2.6, 4.8, 7.4, 3.2], 'asset_2': [4, 7, 8, 3, 4, 5], 'asset_3': [1, 3, 10, 20, 2, 4], }) ┌───────────┬─────────┬─────────┬─────────┐ │ int_index ┆ asset_1 ┆ asset_2 ┆ asset_3 │ │ --- ┆ --- ┆ --- ┆ --- │ │ i64 ┆ f64 ┆ i64 ┆ i64 │ ╞═══════════╪═════════╪═════════╪═════════╡ │ 0 ┆ 1.1 ┆ 4 ┆ 1 │ │ 1 ┆ 3.4 ┆ 7 ┆ 3 │ │ 2 ┆ 2.6 ┆ 8 ┆ 10 │ │ 3 ┆ 4.8 ┆ 3 ┆ 20 │ │ 4 ┆ 7.4 ┆ 4 ┆ 2 │ │ 5 ┆ 3.2 ┆ 5 ┆ 4 │ └───────────┴─────────┴─────────┴─────────┘
使用 rolling()
创建窗口,然后(与您在问题中所做的相同) - rank().first()
除以 count()
、name.suffix()
为列分配新名称:
cols = pl.all().exclude('int_index') percentiles = ( prices.sort(by="int_index") .rolling(index_column="int_index", period="4i", offset="0i", closed="left") .agg((cols.rank().first() * 100 / cols.count()).name.suffix('_percentile')) ) ┌───────────┬────────────────────┬────────────────────┬────────────────────┐ │ int_index ┆ asset_1_percentile ┆ asset_2_percentile ┆ asset_3_percentile │ │ --- ┆ --- ┆ --- ┆ --- │ │ i64 ┆ f64 ┆ f64 ┆ f64 │ ╞═══════════╪════════════════════╪════════════════════╪════════════════════╡ │ 0 ┆ 25.0 ┆ 50.0 ┆ 25.0 │ │ 1 ┆ 50.0 ┆ 75.0 ┆ 50.0 │ │ 2 ┆ 25.0 ┆ 100.0 ┆ 75.0 │ │ 3 ┆ 66.666667 ┆ 33.333333 ┆ 100.0 │ │ 4 ┆ 100.0 ┆ 50.0 ┆ 50.0 │ │ 5 ┆ 100.0 ┆ 100.0 ┆ 100.0 │ └───────────┴────────────────────┴────────────────────┴────────────────────┘
您还可以检查每个窗口内的内容:
( prices.sort(by="int_index") .rolling(index_column="int_index", period="4i", offset="0i", closed="left") .agg(cols) ) ┌───────────┬───────────────────┬─────────────┬───────────────┐ │ int_index ┆ asset_1 ┆ asset_2 ┆ asset_3 │ │ --- ┆ --- ┆ --- ┆ --- │ │ i64 ┆ list[f64] ┆ list[i64] ┆ list[i64] │ ╞═══════════╪═══════════════════╪═════════════╪═══════════════╡ │ 0 ┆ [1.1, 3.4, … 4.8] ┆ [4, 7, … 3] ┆ [1, 3, … 20] │ │ 1 ┆ [3.4, 2.6, … 7.4] ┆ [7, 8, … 4] ┆ [3, 10, … 2] │ │ 2 ┆ [2.6, 4.8, … 3.2] ┆ [8, 3, … 5] ┆ [10, 20, … 4] │ │ 3 ┆ [4.8, 7.4, 3.2] ┆ [3, 4, 5] ┆ [20, 2, 4] │ │ 4 ┆ [7.4, 3.2] ┆ [4, 5] ┆ [2, 4] │ │ 5 ┆ [3.2] ┆ [5] ┆ [4] │ └───────────┴───────────────────┴─────────────┴───────────────┘
以上是Polar 计算百分位数的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

本教程演示如何使用Python处理Zipf定律这一统计概念,并展示Python在处理该定律时读取和排序大型文本文件的效率。 您可能想知道Zipf分布这个术语是什么意思。要理解这个术语,我们首先需要定义Zipf定律。别担心,我会尽量简化说明。 Zipf定律 Zipf定律简单来说就是:在一个大型自然语言语料库中,最频繁出现的词的出现频率大约是第二频繁词的两倍,是第三频繁词的三倍,是第四频繁词的四倍,以此类推。 让我们来看一个例子。如果您查看美国英语的Brown语料库,您会注意到最频繁出现的词是“th

处理嘈杂的图像是一个常见的问题,尤其是手机或低分辨率摄像头照片。 本教程使用OpenCV探索Python中的图像过滤技术来解决此问题。 图像过滤:功能强大的工具 图像过滤器

本文解释了如何使用美丽的汤库来解析html。 它详细介绍了常见方法,例如find(),find_all(),select()和get_text(),以用于数据提取,处理不同的HTML结构和错误以及替代方案(SEL)

本文比较了Tensorflow和Pytorch的深度学习。 它详细介绍了所涉及的步骤:数据准备,模型构建,培训,评估和部署。 框架之间的关键差异,特别是关于计算刻度的

Python是数据科学和处理的最爱,为高性能计算提供了丰富的生态系统。但是,Python中的并行编程提出了独特的挑战。本教程探讨了这些挑战,重点是全球解释

本教程演示了在Python 3中创建自定义管道数据结构,利用类和操作员超载以增强功能。 管道的灵活性在于它能够将一系列函数应用于数据集的能力,GE

Python 对象的序列化和反序列化是任何非平凡程序的关键方面。如果您将某些内容保存到 Python 文件中,如果您读取配置文件,或者如果您响应 HTTP 请求,您都会进行对象序列化和反序列化。 从某种意义上说,序列化和反序列化是世界上最无聊的事情。谁会在乎所有这些格式和协议?您想持久化或流式传输一些 Python 对象,并在以后完整地取回它们。 这是一种在概念层面上看待世界的好方法。但是,在实际层面上,您选择的序列化方案、格式或协议可能会决定程序运行的速度、安全性、维护状态的自由度以及与其他系

Python的statistics模块提供强大的数据统计分析功能,帮助我们快速理解数据整体特征,例如生物统计学和商业分析等领域。无需逐个查看数据点,只需查看均值或方差等统计量,即可发现原始数据中可能被忽略的趋势和特征,并更轻松、有效地比较大型数据集。 本教程将介绍如何计算平均值和衡量数据集的离散程度。除非另有说明,本模块中的所有函数都支持使用mean()函数计算平均值,而非简单的求和平均。 也可使用浮点数。 import random import statistics from fracti
