Tensorflow内核由于过度消耗RAM而自动终止(在本地计算机和GoogleColab上)

2024-04-27 01:04:34 发布

您现在位置:Python中文网/ 问答频道 /正文

描述:

我试图在这个存储库中现成的数据集上运行点网点云分割算法:https://github.com/charlesq34/pointnet.git

在ipython笔记本中(在Jupyter Lab或Colab上),我运行了以下命令来重现错误:

!git clone https://github.com/charlesq34/pointnet.git
cd pointnet/sem_seg/
!sh download_data.sh
!python train.py --log_dir log6 --test_area 6

正如你所看到的,数据是从他们自己的下载脚本下载的,我不会修改他们的脚本。但是当我运行他们的脚本时,TensorFlowAPI会消耗所有可用内存,然后内核就会被杀死。下面附上详细的错误消息:

tcmalloc: large alloc 3477749760 bytes == 0xdc31c000 @  0x7fecb71fc1e7 0x7fecb2fa4d51 0x7fecb3009a84 0x7fecb3009bc3 0x7fecb30a9ade 0x7fecb30aa344 0x7fecb30aa492 0x4f8925 0x4f98c7 0x4f6128 0x4f9023 0x6415b2 0x64166a 0x643730 0x62b26e 0x4b4cb0 0x7fecb6df9b97 0x5bdf6a
(23585, 4096, 9)
(23585, 4096)
tcmalloc: large alloc 2992029696 bytes == 0x1b13e2000 @  0x7fecb71fc1e7 0x7fecb2fa4d51 0x7fecb3009a84 0x7fecb3009bc3 0x7fecb309718a 0x7fecb30975d8 0x4f9ba9 0x4f6128 0x4f9023 0x6415b2 0x64166a 0x643730 0x62b26e 0x4b4cb0 0x7fecb6df9b97 0x5bdf6a
(20291, 4096, 9) (20291, 4096)
(3294, 4096, 9) (3294, 4096)
...
...
...
...
...
**** EPOCH 000 ****
----
tcmalloc: large alloc 2992029696 bytes == 0x7feb5a4c4000 @  0x7fecb71fc1e7 0x7fecb2fa4d51 0x7fecb3009a84 0x7fecb3009bc3 0x7fecb309718a 0x7fecb30975d8 0x4f9ba9 0x4f7a28 0x4f876d 0x4f98c7 0x4f7a28 0x4f876d 0x4f98c7 0x4f7a28 0x4f876d 0x4f98c7 0x4f6128 0x4f9023 0x6415b2 0x64166a 0x643730 0x62b26e 0x4b4cb0 0x7fecb6df9b97 0x5bdf6a
^C

我尝试了很多关于Stackoverflow的类似问题的建议,但没有得到解决。我特别尝试了以下方法:

  1. 减少默认批量大小
  2. 更改默认优化器(adam到momentum)

然而,这些建议都没有帮助我解决这个问题。任何帮助都将不胜感激。你知道吗

更新:

一个独立的ipython笔记本附在这个链接中:Colab Notebook


Tags: 数据httpsgitgithub脚本combytesipython