Python数据帧最佳实践

2024-05-15 09:08:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个包含600万行每日数据的数据框,我将用它来找出某些技术指标对各自股票长期表现的影响。我有两种方法,推荐哪一种?在

  1. 制作两个不同的表,一个是原始数据,一个是包含技术标记的过滤副本,然后对主表进行“查找”以获得后续性能。在
  2. 使用1个大表,包含标记和性能数据。在

我不确定什么是更昂贵的计算-计算所有行的技术标记,甚至是不需要的行,或者对主表进行查找。谢谢。在


Tags: 数据方法标记原始数据副本性能技术股票
1条回答
网友
1楼 · 发布于 2024-05-15 09:08:19

我认为最简单和最有效的方法是有两个表。原因是,对于1个大表,您的算法可以取O(n^2),因为您必须为标记中的每个元素迭代n次,然后为每个元素匹配n次,以获得每个性能。在

如果使用2表的方法,那么复杂度将变为O(n*m),其中n是技术标记的数量,m是性能记录的数量。在这个用例中,我想象你的n是基于你想看的任何一个集合,而不是整个集合,因此你可以简单地应用一个短路,使算法更有效。在

或者,如果您能够构建一个主查找表来捕获性能和技术标记之间的所有关系,那么您的复杂性本质上就是哈希查找或O(1)。在

相关问题 更多 >