如何使用收集的数据集生成模拟研究的输入参数？

1条回答

网友

1楼 · 发布于 2024-05-23 17:32:16

引用2007年冬季模拟会议this tutorial：

At first glance, trace-driven simulation seems appealing. That is where historical data are used directly as inputs. It’s hard to argue about the validity of the distributions when real data from the real-world system is used in your model. In practice, though, this tends to be a poor solution for several reasons. Historical data may be expensive or impossible to extract. It certainly won’t be available in unlimited quantities, which significantly curtails the statistical analysis possible. Storage requirements are high. And last, but not least, it is impossible to assess “what-if?” strategies or try to simulate a prospective system, i.e., one which doesn’t yet exist.

模拟的一个主要用途是研究其他配置或策略，而跟踪数据并不适合，因为它只能显示您当前的操作方式。跟踪数据不能用于研究正在考虑但尚不存在的系统。你知道吗
引导将对现有数据重新采样。这消除了数据量的限制，但有潜在的成本。Bootstrapping的前提是假设您的数据具有代表性和独立性。前者在30万次观测中可能不是问题，但通常在由于成本或可用性问题导致样本量较小时出现。如果你的数据来自一个时间序列，在这个时间序列中，观测值是连续相关的或非齐次的，那么后者就是一个大问题。在这种情况下，独立随机抽样（而不是顺序回放）可能会丢失有关所研究行为的重要信息。你知道吗
如果需要顺序回放，你就回到了被限制在300k的观测值范围内，而这可能并不像你所认为的统计指标那样多的数据。方差估计是计算置信区间误差幅度的基础，序列相关性对样本均值的方差有很大的影响。获得有效的置信区间估计可能需要比独立数据多几个数量级的数据。你知道吗

总之，分布拟合需要更多的前期工作，但从长远来看通常更有用。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用收集的数据集生成模拟研究的输入参数？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >