在进行Python性能分析后，Django (?) 处理大型数据集时非常慢

Question

我在对比我以前写的一个PHP脚本和一个更新版的Django版本时，发现PHP的那个运行得更快。快得多，甚至让我觉得Django的版本肯定有问题。

先说一下背景：我有一个页面用来显示销售数据的报告。数据可以通过很多条件来过滤，但主要是按日期过滤。这让缓存变得有点困难，因为结果的可能性几乎是无穷无尽的。虽然有很多数字和计算，但在PHP中处理这些从来都不是问题。

更新：

经过一些额外的测试，我发现我的视图中没有导致慢速的原因。如果我只是处理数据并输出5行HTML，速度还算可以（虽然还是比PHP慢），但如果我需要渲染大量数据，那就非常慢。
每当我运行一个大报告（比如说一年的所有销售数据），机器的CPU使用率就会飙到100%。我不知道这是否有什么意义。我使用的是mod_python和Apache。也许换成WSGI会有所帮助？
我的模板标签用来显示小计和总计，处理大数据集时需要0.1秒到1秒不等。我在报告中调用它们大约6次，所以它们似乎不是最大的瓶颈。

现在，我运行了一个Python性能分析工具，得到了这些结果：

Ordered by: internal time
   List reduced from 3074 to 20 due to restriction 

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
  2939417   26.290    0.000   44.857    0.000 /usr/lib/python2.5/tokenize.py:212(generate_tokens)
  2822655   17.049    0.000   17.049    0.000 {built-in method match}
  1689928   15.418    0.000   23.297    0.000 /usr/lib/python2.5/decimal.py:515(__new__)
 12289605   11.464    0.000   11.464    0.000 {isinstance}
   882618    9.614    0.000   25.518    0.000 /usr/lib/python2.5/decimal.py:1447(_fix)
    17393    8.742    0.001   60.798    0.003 /usr/lib/python2.5/tokenize.py:158(tokenize_loop)
       11    7.886    0.717    7.886    0.717 {method 'accept' of '_socket.socket' objects}
   365577    7.854    0.000   30.233    0.000 /usr/lib/python2.5/decimal.py:954(__add__)
  2922024    7.199    0.000    7.199    0.000 /usr/lib/python2.5/inspect.py:571(tokeneater)
   438750    5.868    0.000   31.033    0.000 /usr/lib/python2.5/decimal.py:1064(__mul__)
    60799    5.666    0.000    9.377    0.000 /usr/lib/python2.5/site-packages/django/db/models/base.py:241(__init__)
    17393    4.734    0.000    4.734    0.000 {method 'query' of '_mysql.connection' objects}
  1124348    4.631    0.000    8.469    0.000 /usr/lib/python2.5/site-packages/django/utils/encoding.py:44(force_unicode)
   219076    4.139    0.000  156.618    0.001 /usr/lib/python2.5/site-packages/django/template/__init__.py:700(_resolve_lookup)
  1074478    3.690    0.000   11.096    0.000 /usr/lib/python2.5/decimal.py:5065(_convert_other)
  2973281    3.424    0.000    3.424    0.000 /usr/lib/python2.5/decimal.py:718(__nonzero__)
   759014    2.962    0.000    3.371    0.000 /usr/lib/python2.5/decimal.py:4675(__init__)
   381756    2.806    0.000  128.447    0.000 /usr/lib/python2.5/site-packages/django/db/models/fields/related.py:231(__get__)
   842130    2.764    0.000    3.557    0.000 /usr/lib/python2.5/decimal.py:3339(_dec_from_triple)

tokenize.py的性能最差，这也能理解，因为我在做很多数字格式化。decimal.py的表现也合理，因为报告基本上90%都是数字。我对内置方法match不太了解，因为我在自己的代码中并没有使用正则表达式（可能是Django在做的？）我用的最接近的就是itertools的ifilter。

看起来这些是主要的问题，如果我能找到减少这些处理时间的方法，那么我的页面就会快很多。

有没有人有什么建议，能让我开始减少这个问题？我真的不知道该如何解决tokenize和decimal的问题，除了直接去掉它们。

更新：我对大部分数据进行了有无过滤的测试，结果时间基本上差不多，后者稍微快一点，但并不足以成为问题的根源。tokenize.py到底发生了什么？

django 性能优化数据处理性能分析模板渲染 wsgi 数据过滤 cpu使用率

在进行Python性能分析后，Django (?) 处理大型数据集时非常慢

4 个回答

撰写回答