如何使用收集的数据集生成模拟研究的输入参数?

2024-05-23 17:32:16 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我有一个数据集S,其中包含不同作业的服务时间,比如S={t1,t2,t3,...,tn},其中ti是第I个作业的服务时间;n是数据集中的总数。这只是一个群体的样本。这里是30万。我想研究长服务时间的影响,因为有些工作需要很长时间,而有些则不需要。我的直觉是基于从真实系统收集的数据来研究这种影响。研究中的系统有成千上万的工作岗位,而这个数字每几秒钟就增加100个新的工作岗位。此外,服务时间是通过在本地机器上对作业进行基准测试来衡量的。所以实际上,不断扩展数据集是非常昂贵的。因此,我决定随机挑选30万

我正在进行模拟实验,在那里我必须产生大量的工作与他们的服务时间(说数百万),然后做一些其他的计算。你知道吗

如何在我的模拟中使用S作为总体,我遇到了以下问题:

1-使用S本身。我可以使用“带替换的样本”或“不带替换的样本”引导。你知道吗

2-将理论分布模型拟合到S,然后从中得出。你知道吗

我说的对吗?哪种方法最好(利弊)?第一种方法似乎很简单,每次从S中随机选取一个服务时间?它可靠吗?任何建议都是感激的,因为我在统计中没有得到。你知道吗


Tags: 数据方法系统作业时间titn群体
1条回答
网友
1楼 · 发布于 2024-05-23 17:32:16

引用2007年冬季模拟会议this tutorial

At first glance, trace-driven simulation seems appealing. That is where historical data are used directly as inputs. It’s hard to argue about the validity of the distributions when real data from the real-world system is used in your model. In practice, though, this tends to be a poor solution for several reasons. Historical data may be expensive or impossible to extract. It certainly won’t be available in unlimited quantities, which significantly curtails the statistical analysis possible. Storage requirements are high. And last, but not least, it is impossible to assess “what-if?” strategies or try to simulate a prospective system, i.e., one which doesn’t yet exist.

  1. 模拟的一个主要用途是研究其他配置或策略,而跟踪数据并不适合,因为它只能显示您当前的操作方式。跟踪数据不能用于研究正在考虑但尚不存在的系统。你知道吗
  2. 引导将对现有数据重新采样。这消除了数据量的限制,但有潜在的成本。Bootstrapping的前提是假设您的数据具有代表性和独立性。前者在30万次观测中可能不是问题,但通常在由于成本或可用性问题导致样本量较小时出现。如果你的数据来自一个时间序列,在这个时间序列中,观测值是连续相关的或非齐次的,那么后者就是一个大问题。在这种情况下,独立随机抽样(而不是顺序回放)可能会丢失有关所研究行为的重要信息。你知道吗
  3. 如果需要顺序回放,你就回到了被限制在300k的观测值范围内,而这可能并不像你所认为的统计指标那样多的数据。方差估计是计算置信区间误差幅度的基础,序列相关性对样本均值的方差有很大的影响。获得有效的置信区间估计可能需要比独立数据多几个数量级的数据。你知道吗

总之,分布拟合需要更多的前期工作,但从长远来看通常更有用。你知道吗

相关问题 更多 >