photo-enhancer

Sleeping

App Files Files Community

photo-enhancer / src /train.py

zakaria-narjis

add src and models

998f96a over 1 year ago

raw

history blame

10.3 kB

	import yaml
	import time
	import random
	import numpy as np
	import torch
	from torch.utils.tensorboard import SummaryWriter
	import time
	from envs.photo_env import PhotoEnhancementEnv
	from envs.photo_env import PhotoEnhancementEnvTest
	from sac.sac_algorithm import SAC
	import multiprocessing as mp
	import argparse
	import logging
	from sac.utils import *
	from tqdm.auto import tqdm

	from datetime import datetime
	import os
	from pathlib import Path
	import re


	def sanitize_filename(name):
	return re.sub(r'[^\w\-_\. ]', '_', name)

	def getdatetime():
	return datetime.now().strftime("%Y-%m-%d_%H-%M-%S")

	class Config(object):
	def __init__(self, dictionary):
	self.__dict__.update(dictionary)

	def make_dirs_and_open(file_path, mode):
	os.makedirs(os.path.dirname(file_path), exist_ok=True)
	return open(file_path, mode)


	def main():
	current_dir = Path(__file__).parent.absolute()
	parser = argparse.ArgumentParser()
	parser.add_argument('experiment_tag', help='experiment tag')
	parser.add_argument('sac_config', help='YAML sac config file')
	parser.add_argument('env_config', help='YAML env config file')
	parser.add_argument('outdir', nargs='?', type=str, help='directory to put experiment results',default=os.path.join(current_dir.parent, 'experiments/runs'))
	parser.add_argument('save_model', nargs='?',type=bool, default=True)
	parser.add_argument('--logger_level', type=int, default=logging.INFO)

	args = parser.parse_args()
	logger = logging.getLogger(__name__)

	# Configure logging to console
	console_handler = logging.StreamHandler()
	console_handler.setLevel(args.logger_level)
	formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
	console_handler.setFormatter(formatter)
	logger.addHandler(console_handler)
	logger.setLevel(args.logger_level)

	with open(args.sac_config) as f:
	config_dict =yaml.load(f, Loader=yaml.FullLoader)

	with open(args.env_config) as f:
	env_config_dict =yaml.load(f, Loader=yaml.FullLoader)

	sac_config = Config(config_dict)
	env_config = Config(env_config_dict)

	exp_name = sanitize_filename(sac_config.exp_name)
	exp_tag = sanitize_filename(args.experiment_tag)
	run_name = f"{exp_name}__{exp_tag}__{getdatetime()}"
	run_name = run_name[:255] # Truncate to 255 characters to avoid potential issues with very long paths
	run_dir = os.path.join(args.outdir, run_name)


	with make_dirs_and_open(os.path.join(run_dir, 'configs/sac_config.yaml'), 'w') as f:
	yaml.dump(config_dict, f, indent=4, default_flow_style=False)

	with make_dirs_and_open(os.path.join(run_dir, 'configs/env_config.yaml'), 'w') as f:
	yaml.dump(env_config_dict, f, indent=4, default_flow_style=False)


	SEED = sac_config.seed

	random.seed(SEED)
	np.random.seed(SEED)
	torch.manual_seed(SEED)
	torch.backends.cudnn.deterministic = sac_config.torch_deterministic
	torch.autograd.set_detect_anomaly(True)
	print()
	env = PhotoEnhancementEnv(
	batch_size=env_config.train_batch_size,
	imsize=env_config.imsize,
	training_mode=True,
	done_threshold=env_config.threshold_psnr,
	edit_sliders=env_config.sliders_to_use,
	features_size=env_config.features_size,
	discretize=env_config.discretize,
	discretize_step= env_config.discretize_step,
	use_txt_features=env_config.use_txt_features,
	augment_data=env_config.augment_data,
	pre_encoding_device=env_config.pre_encoding_device,
	pre_load_images = env_config.pre_load_images,
	preprocessor_agent_path=env_config.preprocessor_agent_path,
	logger=None
	)
	test_env = PhotoEnhancementEnvTest(
	batch_size=env_config.test_batch_size,
	imsize=env_config.imsize,
	training_mode=False,
	done_threshold=env_config.threshold_psnr,
	edit_sliders=env_config.sliders_to_use,
	features_size=env_config.features_size,
	discretize=env_config.discretize,
	discretize_step = env_config.discretize_step,
	use_txt_features=env_config.use_txt_features,
	augment_data=env_config.augment_data,
	pre_encoding_device=env_config.pre_encoding_device,
	pre_load_images = env_config.pre_load_images,
	preprocessor_agent_path=env_config.preprocessor_agent_path,
	logger=None
	)

	logger.info(f'Sliders used {env.edit_sliders}')
	logger.info(f'Number of sliders used { env.num_parameters}')
	logger.info(f'Sliders used {test_env .edit_sliders}')
	logger.info(f'Number of sliders used {test_env .num_parameters}')

	writer = SummaryWriter(run_dir)
	writer.add_text(
	"SAC_hyperparameters",
	"\|param\|value\|\n\|-\|-\|\n%s" % ("\n".join([f"\|{key}\|{value}\|" for key, value in vars(sac_config).items()])),
	)
	writer.add_text(
	"env_parameters",
	"\|param\|value\|\n\|-\|-\|\n%s" % ("\n".join([f"\|{key}\|{value}\|" for key, value in vars(env_config).items()])),
	)
	try:
	agent = SAC(env,sac_config,writer)

	if env_config.preprocessor_agent_path!=None: #Double agent mode
	test_env.preprocessor_agent = env.preprocessor_agent # share the same preprocessor agent
	agent.backbone.model.load_state_dict(env.preprocessor_agent.backbone.model.state_dict())
	agent.backbone.eval().requires_grad_(False)

	agent.start_time = time.time()
	logger.info(f'Start Training at {getdatetime()}')
	for i in tqdm(range(sac_config.total_timesteps), position=0, leave=True):
	episode_count = 0
	agent.reset_env()
	envs_mean_rewards =[]
	if agent.global_step>env_config.backbone_warmup:
	agent.backbone.train().requires_grad_(True)
	while True:
	episode_count+=1
	agent.global_step+=1
	rewards,batch_dones = agent.train()
	envs_mean_rewards.append(rewards.mean().item())
	if(batch_dones==True).any():
	num_env_done = int(batch_dones.sum().item())
	agent.writer.add_scalar("charts/num_env_done", num_env_done , agent.global_step)
	if agent.global_step % 100 == 0:
	ens_mean_episodic_return = sum(envs_mean_rewards)
	agent.writer.add_scalar("charts/mean_episodic_return", ens_mean_episodic_return, agent.global_step)

	if (batch_dones==True).all()==True or episode_count==sac_config.max_episode_timesteps:
	episode_count=0
	break
	if agent.global_step%200==0:
	agent.backbone.eval().requires_grad_(False)
	agent.actor.eval().requires_grad_(False)
	agent.qf1.eval().requires_grad_(False)
	agent.qf2.eval().requires_grad_(False)
	with torch.no_grad():
	n_images = 5
	obs = test_env.reset()
	actions = agent.actor.get_action(**obs.to(sac_config.device))
	_,rewards,dones = test_env.step(actions[0])
	agent.writer.add_scalar("charts/test_mean_episodic_return", rewards.mean().item(), agent.global_step)

	if env_config.preprocessor_agent_path!=None:
	agent.writer.add_images("test_images",test_env.original_image[:n_images],0)
	agent.writer.add_images("test_images",test_env.state['source_image'][:n_images],1)
	agent.writer.add_images("test_images",test_env.state['enhanced_image'][:n_images],2)
	agent.writer.add_images("test_images",test_env.state['target_image'][:n_images],3)
	else:
	agent.writer.add_images("test_images",test_env.state['source_image'][:n_images],0)
	agent.writer.add_images("test_images",test_env.state['enhanced_image'][:n_images],1)
	agent.writer.add_images("test_images",test_env.state['target_image'][:n_images],2)
	agent.backbone.train().requires_grad_(True)
	agent.actor.train().requires_grad_(True)
	agent.qf1.train().requires_grad_(True)
	agent.qf2.train().requires_grad_(True)

	logger.info(f'Ended training at {getdatetime()}')
	if args.save_model:
	models_dir = os.path.join(run_dir, 'models')
	os.makedirs(models_dir, exist_ok=True)
	logger.info(f"Saving models in {models_dir}")
	torch.save(agent.backbone.state_dict(), run_dir+'/models/backbone.pth')
	save_actor_head(agent.actor, run_dir+'/models/actor_head.pth')
	save_critic_head(agent.qf1, run_dir+'/models/qf1_head.pth')
	save_critic_head(agent.qf2, run_dir+'/models/qf2_head.pth')
	writer.close()
	except Exception as e:

	logger.exception("An error occurred during training")
	if agent.global_step>1000:
	if args.save_model:
	models_dir = os.path.join(run_dir, 'models')
	os.makedirs(models_dir, exist_ok=True)
	logger.info(f"Saving models after exception in {models_dir}")
	torch.save(agent.backbone.state_dict(), run_dir+'/models/backbone.pth')
	save_actor_head(agent.actor, run_dir+'/models/actor_head.pth')
	save_critic_head(agent.qf1, run_dir+'/models/qf1_head.pth')
	save_critic_head(agent.qf2, run_dir+'/models/qf2_head.pth')
	writer.close()

	if __name__=="__main__":

	main()