如何在Python中持久存储仿真结果？

Question

背景：我正在对一组数据进行多次模拟。在每个模拟中，我会把项目分配给学生。每次模拟的不同之处在于，我会随机改变学生的顺序，这样每个学生都有机会获得他们想要的项目。我在一个电子表格（比如Excel）里写下了一些分配的结果，基本上是这样的（这只是一个小快照，实际的表格有几千次模拟，大约有100个学生）。

|          | Session 1 | Session 2 | Session 3 |
|----------|-----------|-----------|-----------|
|Stu1      |Proj_AA    |Proj_AB    |Proj_AB    |
|----------|-----------|-----------|-----------|
|Stu2      |Proj_AB    |Proj_AA    |Proj_AC    |
|----------|-----------|-----------|-----------|
|Stu3      |Proj_AC    |Proj_AC    |Proj_AA    |
|----------|-----------|-----------|-----------|

现在，处理分配的代码目前是把每次模拟的结果存储在一个对象里。下一次进行分配时，这个对象会被覆盖。

所以我真正想做的是保存所有的分配结果。这很重要，因为我之后需要从这些数据中提取信息，比如：哪个项目是Stu1最常被分配的，或者Proj_AC有多受欢迎（被分配的次数/模拟的总次数）。

问题：
我可以用什么方法来持久保存这些模拟信息？基本上，每次模拟结束后，输出结果需要添加到存储库中，然后再开始下一轮分配。

一个朋友建议的解决方案是使用SQLAlchemy将这些结果映射到一个关系数据库。我觉得这个主意不错，因为这让我有机会深入了解数据库。

我被推荐的数据库结构是：

|----------|-----------|-----------|
|Session   |Student    |Project    |
|----------|-----------|-----------|
|1         |Stu1       |Proj_AA    |
|----------|-----------|-----------|
|1         |Stu2       |Proj_AB    |
|----------|-----------|-----------|
|1         |Stu3       |Proj_AC    |
|----------|-----------|-----------|
|2         |Stu1       |Proj_AB    |
|----------|-----------|-----------|
|2         |Stu2       |Proj_AA    |
|----------|-----------|-----------|
|2         |Stu3       |Proj_AC    |
|----------|-----------|-----------|
|3         |Stu1       |Proj_AB    |
|----------|-----------|-----------|
|3         |Stu2       |Proj_AC    |
|----------|-----------|-----------|
|3         |Stu3       |Proj_AA    |
|----------|-----------|-----------|

这里建议我将Session和Student列作为复合键。这样我就可以访问特定学生在特定模拟中的记录，或者仅仅获取某个特定模拟的所有分配结果。

问题：
这个主意好吗？
如何使用SQLAlchemy实现和查询复合键？
如果某个学生没有被分配到项目（比如他想要的项目都被其他人拿走了），数据库会发生什么？在代码中，如果一个学生没有被分配项目，他在那个字段/对象中会得到None。

抱歉问了多个问题，但因为这些问题是紧密相关的，我想在同一个地方问。

编辑 - 2010年3月25日

目前，学生的类结构是这样的：

class Student(DeptPerson):
    def __init__(self, name, stud_id):
        super(Student, self).__init__(name, stud_id)
        self.preferences = collections.defaultdict(set)
        self.allocated_project = None
        self.allocated_rank = 0

(杂项) 它继承自一个叫DeptPerson的类，这个类只有name和stud_id。

因此，当分配函数给学生分配项目（通过一个唯一的ID来引用 - Project是它自己的类）时，它会在allocated_project中反映出这个值。如果某个学生在某次模拟中没有被分配到项目（因为其他人已经拿走了，哈哈...抱歉），allocated_project会保持为None（这对我来说是很有用的信息）。

数据库数据结构数据提取关系数据库持久存储模拟结果复合键学生分配

如何在Python中持久存储仿真结果？

3 个回答

撰写回答