train.py

import os
import torch
import datetime

from darknet import Darknet19

from datasets.pascal_voc import VOCDataset
import utils.yolo as yolo_utils
import utils.network as net_utils
from utils.timer import Timer
import cfgs.config as cfg
from random import randint

from patch import *

try:
    from tensorboardX import SummaryWriter
except ImportError:
    SummaryWriter = None


# data loader
imdb = VOCDataset(cfg.imdb_train, cfg.DATA_DIR, cfg.train_batch_size,
                  yolo_utils.preprocess_train, processes=2, shuffle=True,
                  dst_size=cfg.multi_scale_inp_size)
# dst_size=cfg.inp_size)
print('load data succ...')

net = Darknet19()
# net_utils.load_net(cfg.trained_model, net)
#pretrained_model = os.path.join(cfg.train_output_dir,
#                  'darknet19_voc07trainval_exp3_79.h5')
pretrained_model = 'yolo-voc.weights.h5'

# training from scratch: with_patch=False
# continue training or testing: with_patch=True
net_utils.load_net(pretrained_model, net, with_patch=False) 
#net.load_from_npz(cfg.pretrained_model, num_conv=18)
net.cuda()
net.train()
print('load net succ...')

# optimizer
start_epoch = 0
lr = 1e-2
optimizer = torch.optim.SGD([net.patch], lr=lr, momentum=cfg.momentum,
                            weight_decay=cfg.weight_decay)

# tensorboad
use_tensorboard = cfg.use_tensorboard and SummaryWriter is not None
# use_tensorboard = False
if use_tensorboard:
    summary_writer = SummaryWriter(os.path.join(cfg.TRAIN_DIR, 'runs', cfg.exp_name))
else:
    summary_writer = None

batch_per_epoch = imdb.batch_per_epoch
train_loss = 0
bbox_loss, iou_loss, cls_loss = 0., 0., 0.
cnt = 0
t = Timer()
step_cnt = 0
size_index = 0

for step in range(start_epoch * imdb.batch_per_epoch,
                  cfg.max_epoch * imdb.batch_per_epoch):
    t.tic()
    if step % imdb.batch_per_epoch == 0:
        print('-----------save %d patch to ------------'%step)
        save_patch(net.patch, step)
        print(net.patch)
        print('\n')

    # batch
    batch = imdb.next_batch(size_index)
    im = batch['images']
    gt_boxes = batch['gt_boxes']
    gt_classes = batch['gt_classes']
    dontcare = batch['dontcare']
    orgin_im = batch['origin_im']
    
    # reset patch class here 
    for g, gt_cls in enumerate(gt_classes):
       for c,the_cls in enumerate(gt_cls):
           gt_classes[g][c] = cfg.target_class
    
    #print('gt_boxes', gt_boxes)
    # reset patch bbox here
    #for g, gt_box in enumerate(gt_boxes):
    #   for b, bbox in enumerate(gt_box):
    #       gt_boxes[g][b] = [cfg.patch_x, cfg.patch_y, cfg.patch_x+cfg.patch_w, cfg.patch_y+cfg.patch_h]
    
    # forward
    im_data = net_utils.np_to_variable(im,
                                       is_cuda=True,
                                       volatile=False).permute(0, 3, 1, 2)
    bbox_pred, iou_pred, prob_pred = net(im_data, gt_boxes, gt_classes, dontcare, size_index)

    # backward
    loss = net.loss
    bbox_loss += net.bbox_loss.data.cpu()#.numpy()[0]
    iou_loss += net.iou_loss.data.cpu()#.numpy()[0]
    cls_loss += net.cls_loss.data.cpu()#.numpy()[0]
    train_loss += loss.data.cpu()#.numpy()[0]
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    cnt += 1
    step_cnt += 1
    duration = t.toc()
    if step % cfg.disp_interval == 0:
        train_loss /= cnt
        bbox_loss /= cnt
        iou_loss /= cnt
        cls_loss /= cnt
        print(('epoch %d[%d/%d], loss: %.3f, bbox_loss: %.3f, iou_loss: %.3f, '
               'cls_loss: %.3f (%.2f s/batch, rest:%s)' %
               (imdb.epoch, step_cnt, batch_per_epoch, train_loss, bbox_loss,
                iou_loss, cls_loss, duration,
                str(datetime.timedelta(seconds=int((batch_per_epoch - step_cnt) * duration))))))  # noqa

        if summary_writer and step % cfg.log_interval == 0:
            summary_writer.add_scalar('loss_train', train_loss, step)
            summary_writer.add_scalar('loss_bbox', bbox_loss, step)
            summary_writer.add_scalar('loss_iou', iou_loss, step)
            summary_writer.add_scalar('loss_cls', cls_loss, step)
            summary_writer.add_scalar('learning_rate', lr, step)

            # plot results
            bbox_pred = bbox_pred.data[0:1].cpu().numpy()
            iou_pred = iou_pred.data[0:1].cpu().numpy()
            prob_pred = prob_pred.data[0:1].cpu().numpy()
            image = im[0]
            bboxes, scores, cls_inds = yolo_utils.postprocess(
                bbox_pred, iou_pred, prob_pred, image.shape, cfg, thresh=0.3, size_index=size_index)
            im2show = yolo_utils.draw_detection(image, bboxes, scores, cls_inds, cfg)
            #summary_writer.add_image('predict', im2show, step)

        train_loss = 0
        bbox_loss, iou_loss, cls_loss = 0., 0., 0.
        cnt = 0
        t.clear()
        size_index = randint(0, len(cfg.multi_scale_inp_size) - 1)
        print("image_size {}".format(cfg.multi_scale_inp_size[size_index]))

    if step > 0 and (step % imdb.batch_per_epoch == 0):
        if imdb.epoch in cfg.lr_decay_epochs:
            lr *= cfg.lr_decay
            print("learning rate", lr)
            optimizer = torch.optim.SGD([net.patch], lr=lr,
                                        momentum=cfg.momentum,
                                        weight_decay=cfg.weight_decay)

        save_name = os.path.join(cfg.train_output_dir,
                                 '{}_{}.h5'.format(cfg.exp_name, imdb.epoch))
        net_utils.save_net(save_name, net)
        print(('save model: {}'.format(save_name)))
        step_cnt = 0

imdb.close()