Spaces:

CUHKWilliam
/

Multiple-shots

Sleeping

Multiple-shots / train_retriever.py

c70812a over 1 year ago

7 kB

	r""" training (validation) code """
	import torch.optim as optim
	import torch.nn as nn
	import torch

	from model.DCAMA import DCAMA
	from common.logger import Logger, AverageMeter
	from common.evaluation import Evaluator
	from common.config import parse_opts
	from common import utils
	from data.dataset import FSSDataset
	import torch.nn.functional as F

	average_loss = torch.tensor(0.).float().cuda()
	global_idx = 0
	def train(epoch, model, dataloader, optimizer, training):
	r""" Train """

	# Force randomness during training / freeze randomness during testing
	utils.fix_randseed(None) if training else utils.fix_randseed(0)
	model.module.train_mode() if training else model.module.eval()
	average_meter = AverageMeter(dataloader.dataset)

	global average_loss, global_idx
	average_loss = average_loss.to("cuda:{}".format(torch.cuda.current_device()))
	stats = [[], []]
	criterion_score = nn.BCEWithLogitsLoss()
	for idx, batch in enumerate(dataloader):

	# 1. forward pass
	batch = utils.to_cuda(batch)
	logit_mask, score_preds = model(batch['query_img'], batch['support_imgs'], batch['support_masks'], nshot=batch['support_imgs'].size(1))
	pred_mask = logit_mask.argmax(dim=1)

	# 2. Compute loss & update model parameters
	loss = model.module.compute_objective(logit_mask, batch['query_mask'])
	# loss_obj = loss.detach()
	area_inter, area_union = Evaluator.classify_prediction(pred_mask, batch)
	iou = area_inter[1] / area_union[1]

	if iou > 0.7 or iou < 0.1:
	'''
	if iou < 0.1:
	img = batch['query_img'][0].permute(1, 2, 0).detach().cpu().numpy()
	img = img - img.min()
	img = img / img.max()
	cv2.imwrite('query_image.png', (img * 255).astype(np.uint8))
	img = batch['support_imgs'][0][0].permute(1, 2, 0).detach().cpu().numpy()
	img = img - img.min()
	img = img / img.max()
	cv2.imwrite('support_image.png', (img * 255).astype(np.uint8))
	cv2.imwrite('query_mask.png', (batch['query_mask'][0] * 255).detach().cpu().numpy().astype(np.uint8))
	cv2.imwrite('pred_mask.png', (pred_mask[0] * 255).detach().cpu().numpy().astype(np.uint8))
	cv2.imwrite('support_mask.png', (batch['support_masks'][0][0] * 255).detach().cpu().numpy().astype(np.uint8))
	'''
	if iou > 0.7:
	iou = torch.tensor(1.).float().cuda()
	else:
	iou = torch.tensor(0.).float().cuda()
	score_loss = criterion_score(score_preds, iou)
	stats[0].append(score_preds.detach().cpu().numpy())
	stats[1].append((area_inter[1] / area_union[1]).detach().cpu().numpy())
	print(score_preds, (area_inter[1] / area_union[1]))
	loss = score_loss

	if training:
	optimizer.zero_grad()
	loss.backward()
	optimizer.step()

	# 3. Evaluate prediction
	area_inter, area_union = Evaluator.classify_prediction(pred_mask, batch)
	average_meter.update(area_inter, area_union, batch['class_id'], loss.detach().clone())
	average_meter.write_process(idx, len(dataloader), epoch, write_batch_idx=50)

	# Write evaluation results
	average_meter.write_result('Training' if training else 'Validation', epoch)
	avg_loss = utils.mean(average_meter.loss_buf)
	miou, fb_iou = average_meter.compute_iou()
	import matplotlib.pyplot as plt
	idx = 0
	plt.scatter(stats[0], stats[1], c="red", s=2, alpha=0.1)
	plt.savefig('stat.png')
	plt.close()

	return avg_loss, miou, fb_iou


	if __name__ == '__main__':

	# Arguments parsing
	args = parse_opts()

	# ddp backend initialization
	torch.distributed.init_process_group(backend='nccl')
	torch.cuda.set_device(args.local_rank)

	# Model initialization
	model = DCAMA(args.backbone, args.feature_extractor_path, False)
	device = torch.device("cuda", args.local_rank)
	model.to(device)
	model = nn.parallel.DistributedDataParallel(model, device_ids=[args.local_rank], output_device=args.local_rank,
	find_unused_parameters=True)


	params = model.state_dict()
	state_dict = torch.load(args.load)
	state_dict2 = {}
	for k in state_dict.keys():
	if "scorer" in k:
	continue
	state_dict2[k] = state_dict[k]
	state_dict = state_dict2
	for k1, k2 in zip(list(state_dict.keys()), params.keys()):
	state_dict[k2] = state_dict.pop(k1)

	model.load_state_dict(state_dict, strict=False)

	## TODO:
	for i in range(len(model.module.model.DCAMA_blocks)):
	torch.nn.init.constant_(model.module.model.DCAMA_blocks[i].linears[1].weight, 0.)
	torch.nn.init.constant_(model.module.model.DCAMA_blocks[i].linears[1].bias, 1.)


	# Helper classes (for training) initialization
	optimizer = optim.SGD([{"params": model.module.model.parameters(), "lr": args.lr,
	"momentum": 0.9, "weight_decay": args.lr/10, "nesterov": True}])
	Evaluator.initialize()
	if args.local_rank == 0:
	Logger.initialize(args, training=True)
	Logger.info('# available GPUs: %d' % torch.cuda.device_count())

	# Dataset initialization
	FSSDataset.initialize(img_size=384, datapath=args.datapath, use_original_imgsize=False)
	dataloader_trn = FSSDataset.build_dataloader(args.benchmark, args.bsz, args.nworker, args.fold, 'trn', args.nshot)
	if args.local_rank == 0:
	dataloader_val = FSSDataset.build_dataloader(args.benchmark, args.bsz, args.nworker, args.fold, 'val', args.nshot)

	# Train
	best_val_miou = float('-inf')
	best_val_loss = float('inf')
	for epoch in range(args.nepoch):
	dataloader_trn.sampler.set_epoch(epoch)
	trn_loss, trn_miou, trn_fb_iou = train(epoch, model, dataloader_trn, optimizer, training=True)

	# evaluation
	if args.local_rank == 0:
	# with torch.no_grad():
	# val_loss, val_miou, val_fb_iou = train(epoch, model, dataloader_val, optimizer, training=False)

	# Save the best model
	# if val_miou > best_val_miou:
	# best_val_miou = val_miou
	# Logger.save_model_miou(model, epoch, val_miou)
	Logger.save_model_miou(model, epoch , 1.)

	# Logger.tbd_writer.add_scalars('data/loss', {'trn_loss': trn_loss, 'val_loss': val_loss}, epoch)
	# Logger.tbd_writer.add_scalars('data/miou', {'trn_miou': trn_miou, 'val_miou': val_miou}, epoch)
	# Logger.tbd_writer.add_scalars('data/fb_iou', {'trn_fb_iou': trn_fb_iou, 'val_fb_iou': val_fb_iou}, epoch)
	# Logger.tbd_writer.flush()

	if args.local_rank == 0:
	Logger.tbd_writer.close()
	Logger.info('==================== Finished Training ====================')