1.芯片型号:X3
2.天工开物开发包OpenExplorer版本:XJ3_OE_2.5.2
3.问题定位:unet模型训练
4.问题具体描述:
利用
python3 tools/train.py --stage float --config configs/segmentation/unet.py
进行训练
训练到epotch8因为读取数据超时意外停止,
模型文件产生到此
float-checkpoint-epoch-0008-30554cd8.pth.tar
现在我希望继续在epotch8的基础上恢复训练,
于是按照文档
Horizon-Torch-Samples 1.2.0
在unet.py里加上
float_solver = dict(-
trainer=float_trainer,-
quantize=False,-
# 配置 resume_checkpoint, 即 checkpoint 文件路径-
resume_checkpoint=“./tmp_models/dwunet_seg/float-checkpoint-last.pth.tar”,-
# 配置 resume_optimizer, 即是否恢复 optimizer, 默认为 True-
resume_optimizer=True,-
# 配置 resume_epoch_or_step, 即是否恢复 epoch(step) 计数, 默认-
为 True-
resume_epoch_or_step=True,-
)
但是无法恢复训练,我再次执行
python3 tools/train.py --stage float --config configs/segmentation/unet.py
终端输出的消息是
809 INFO [metric_updater.py:320] Node[0] Epoch[0] Step[99] GlobalStep[99] dwunet_seg: MeanIOU[tensor(0.0766, device=‘cuda:0’)]
还是从Epoch[0]开始。