帮助格式化和解决一个非常大的方程组问题

Question

这是一个现实中的问题，以前通过成千上万次的手动迭代解决过。

请原谅我对StackOverflow的不熟悉以及提问格式的不足。Dave在评论中正确地重写了我的问题，我将在下面引用他的话。如果我能找到方法，我也想感谢他。

如果你能让问题更集中，先定义术语再使用，并且明确输入是什么，可能会得到更好的回应。例如，“一个数据点是一个容器，里面有一个叫做‘值’的正整数，一个叫做‘A’的属性，里面有一个整数，还有属性B、C、D，每个属性里面都有整数和浮点数的组合，浮点数的总和为1.0。我的输入大约有2万个这样的数据点，我的目标是找到这些点的新值，保持其他不变，最大化（新值 - 旧值）。”

我有大约20,000个数据点（X_i）。每个数据点都有一个大于零的值。每个数据点还有4个属性。属性A有99个可能的类别，每个数据点只能属于其中一个。剩下的三个属性可以将值分配到多个类别。例如：X_i的80%值属于属性B的类别2，而剩下的20%属于属性B的类别5。

我还有每个数据点在过去几年的值（每年一个值）。

点	之前的值	新值	差异	属性A	属性B	属性C	属性D
X1	68	72	4	1: 100%	2: 80%	3: 100%	7: 90%
					5: 20%		9: 10%
X2	56,000	66,000	10,000	7: 100%	1: 50%	3: 90%	2: 100%
					5: 50%	6: 10%

我需要解决新值这一列，需遵循以下约束条件：

新值必须是正数

所有(X_i)的总和 = 已知值

所有(X_i) * 每个属性分配给类别的百分比 = 目标值

所有目标值的总和 = 已知值

属性A

A1: 目标值

A2: 目标值

...

A99: 目标值

A1 + A2 +... A99 = 已知值

属性B

B1: 目标值

B2: 目标值

...

B27: 目标值

B1 + B2 +... B27 = 已知值

属性C

C1: 目标值

C2: 目标值

...

C18: 目标值

C1 + C2 +... C18 = 已知值

属性D

D1: 目标值

D2: 目标值

...

D8: 目标值

D1 + D2 +... D8 = 已知值

软约束

差异列中的值应该是正数

较小的值应该有更多的变化自由度，而较大的值则应限制变化

最终目标

尽量减少每行的差异列的值。在查看与之前值的百分比变化时，尽量均匀分配变化，而不是全部归因于单一行。

如前所述，这个问题每年通过手动迭代解决一次。我们开发了一种工作流程，首先通过将之前的值转换为总值的百分比来填充起始值，然后将其乘以新的已知值，这个值总是大于之前的总值。我们使用BI工具同时查看起始值和目标值之间的所有总差异。然后，手动迭代以[从X34减去10,000并加到X452]的形式添加到一个运行列表中，并更新BI工具以显示新状态。这个运行列表可能有成千上万行。此外，我所说的“解决”是指我们最终可以生成一个符合所有约束的解决方案，但我们清楚这只是一个解决方案，而不是最佳解决方案。

我们已经尝试通过Python自动化迭代过程，取得了一定的成功。我们还与Matlab的代表进行了交谈，他们相信可以使用fmincon接近解决方案，我们仍然可能会追求这个方向，但我想探索其他选择。

我在这篇文章中请求的并不一定是一个解决方案（虽然我会接受），而是类似问题的资源链接（一个元素的变化导致其他元素的变化）。或者可能是帮助我更清晰地定义数学问题。我已经研究了几种优化和遗传算法，但似乎没有一个符合我的需求。

“所有(Xi)的总和 * 每个属性分配给类别的百分比 = 目标值”这个问题是一个整体的目标值，还是每个类别的特定目标值，或者其他什么？

每个属性的每个类别都有一个目标值。属性D有8个目标值。这8个值的总和等于属性C的18个目标值的总和（或任何属性）。这是一个封闭系统。总共有99 + 27 + 18 + 8 = 152个目标值。实际上，这些目标值中有些比其他的更重要。属性B必须匹配所有27个目标，而属性C中只有5个目标是关键的。

你优化的参数是什么？例如，你能改变类别之间的百分比分配吗？ – Nick ODell

实际上，百分比可以稍微变化。比如从80/20变成75/25。老实说，我们一直保持这些分配不变，以简化已经复杂的问题。你不能做的是添加一个不存在的类别。例如，将80/20改为70/20/10。我们希望优化（最小化）的参数是之前值和新值之间的差异。同时，理想的解决方案也应该是平滑的。给出两个解决方案：第一个解决方案中，大多数数据点变化很小，只有一个数据点变化很大。而在第二个解决方案中，所有数据点变化较大，但没有单个点变化很大。第二个解决方案更受欢迎。

如果我遗漏了上面提到的内容，请原谅，但到目前为止，所有约束似乎都是线性的。如果目标是最小化差异的绝对值之和，那么这可以表示为线性规划问题，并使用scipy.optimize.linprog或scipy.optimize.milp解决，这比minimize更适合处理大问题。如果你对这种方法感兴趣，我可以提供一个示例，帮助你以类似的方式构建问题。 – Matt Haberland

@Matt 是的，我非常想看看你如何在SciPy中构建这个问题的解决方案。可能还会结合Cary Swoveland和Nick ODell的建议。

数据分析数值计算约束条件目标函数线性规划优化迭代算法属性分配

帮助格式化和解决一个非常大的方程组问题

1 个回答

撰写回答