ameerazam08 commited on Jul 13, 2024

Commit

210e8a2

verified ·

1 Parent(s): 12e7a68

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitignore +22 -0
.gitmodules +6 -0
README.md +153 -0
arguments/__init__.py +118 -0
assets/main.png +0 -0
data/.gitkeep +0 -0
data_utils/deepspeech_features/README.md +20 -0
data_utils/deepspeech_features/deepspeech_features.py +274 -0
data_utils/deepspeech_features/deepspeech_store.py +172 -0
data_utils/deepspeech_features/extract_ds_features.py +130 -0
data_utils/deepspeech_features/extract_wav.py +87 -0
data_utils/deepspeech_features/fea_win.py +11 -0
data_utils/easyportrait/create_teeth_mask.py +34 -0
data_utils/easyportrait/local_configs/__base__/datasets/easyportrait_1024x1024.py +59 -0
data_utils/easyportrait/local_configs/__base__/datasets/easyportrait_384x384.py +59 -0
data_utils/easyportrait/local_configs/__base__/datasets/easyportrait_512x512.py +59 -0
data_utils/easyportrait/local_configs/__base__/default_runtime.py +14 -0
data_utils/easyportrait/local_configs/__base__/models/bisenetv2.py +80 -0
data_utils/easyportrait/local_configs/__base__/models/fcn_resnet50.py +45 -0
data_utils/easyportrait/local_configs/__base__/models/fpn_resnet50.py +36 -0
data_utils/easyportrait/local_configs/__base__/models/lraspp.py +25 -0
data_utils/easyportrait/local_configs/__base__/models/segformer.py +34 -0
data_utils/easyportrait/local_configs/__base__/schedules/schedule_10k_adamw.py +11 -0
data_utils/easyportrait/local_configs/__base__/schedules/schedule_160k_adamw.py +9 -0
data_utils/easyportrait/local_configs/__base__/schedules/schedule_20k_adamw.py +11 -0
data_utils/easyportrait/local_configs/__base__/schedules/schedule_40k_adamw.py +9 -0
data_utils/easyportrait/local_configs/__base__/schedules/schedule_80k_adamw.py +9 -0
data_utils/easyportrait/local_configs/easyportrait_experiments_v2/bisenet-fp/bisenetv2-fp.py +221 -0
data_utils/easyportrait/local_configs/easyportrait_experiments_v2/bisenet-ps/bisenetv2-ps.py +218 -0
data_utils/easyportrait/local_configs/easyportrait_experiments_v2/danet-fp/danet-fp.py +174 -0
data_utils/easyportrait/local_configs/easyportrait_experiments_v2/danet-ps/danet-ps.py +171 -0
data_utils/easyportrait/local_configs/easyportrait_experiments_v2/deeplab-fp/deeplabv3-fp.py +174 -0
data_utils/easyportrait/local_configs/easyportrait_experiments_v2/deeplab-ps/deeplabv3-ps.py +171 -0
data_utils/easyportrait/local_configs/easyportrait_experiments_v2/fastscnn-fp/fastscnn-fp.py +165 -0
data_utils/easyportrait/local_configs/easyportrait_experiments_v2/fastscnn-ps/fastscnn-ps.py +162 -0
data_utils/easyportrait/local_configs/easyportrait_experiments_v2/fcn-fp/fcn-fp.py +187 -0
data_utils/easyportrait/local_configs/easyportrait_experiments_v2/fcn-ps/fcn-ps.py +184 -0
data_utils/easyportrait/local_configs/easyportrait_experiments_v2/fpn-fp/fpn-fp.py +182 -0
data_utils/easyportrait/local_configs/easyportrait_experiments_v2/fpn-ps/fpn-ps.py +179 -0
data_utils/easyportrait/local_configs/easyportrait_experiments_v2/segformer-fp/segformer-fp.py +182 -0
data_utils/easyportrait/local_configs/easyportrait_experiments_v2/segformer-ps/segformer-ps.py +179 -0
data_utils/easyportrait/mmseg/.mim/configs +0 -0
data_utils/easyportrait/mmseg/.mim/tools +0 -0
data_utils/easyportrait/mmseg/__init__.py +62 -0
data_utils/easyportrait/mmseg/apis/__init__.py +11 -0
data_utils/easyportrait/mmseg/apis/inference.py +145 -0
data_utils/easyportrait/mmseg/apis/test.py +233 -0
data_utils/easyportrait/mmseg/apis/train.py +194 -0
data_utils/easyportrait/mmseg/core/__init__.py +12 -0
data_utils/easyportrait/mmseg/core/builder.py +33 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,22 @@

+__pycache__/
+build/
+*.egg-info/
+*.so
+*.mp4
+*.pth
+data_utils/face_tracking/3DMM/*
+data_utils/face_parsing/79999_iter.pth
+*.pyc
+.vscode
+output*
+build
+gridencoder/gridencoder.egg-info
+diff_rasterization/diff_rast.egg-info
+diff_rasterization/dist
+tensorboard_3d
+screenshots
+data/*
+!*.gitkeep

.gitmodules ADDED Viewed

	@@ -0,0 +1,6 @@

+[submodule "submodules/simple-knn"]
+	path = submodules/simple-knn
+	url = https://gitlab.inria.fr/bkerbl/simple-knn.git
+[submodule "submodules/diff-gaussian-rasterization"]
+	path = submodules/diff-gaussian-rasterization
+	url = https://github.com/ashawkey/diff-gaussian-rasterization.git

README.md ADDED Viewed

	@@ -0,0 +1,153 @@

+# TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting
+This is the official repository for our ECCV 2024 paper **TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting**.
+[Paper](https://arxiv.org/abs/2404.15264) | [Project](https://fictionarry.github.io/TalkingGaussian/) | [Video](https://youtu.be/c5VG7HkDs8I)
+![image](./assets/main.png)
+## Installation
+Tested on Ubuntu 18.04, CUDA 11.3, PyTorch 1.12.1
+```
+git clone [email protected]:Fictionarry/TalkingGaussian.git --recursive
+conda env create --file environment.yml
+conda activate talking_gaussian
+pip install "git+https://github.com/facebookresearch/pytorch3d.git"
+pip install tensorflow-gpu==2.8.0
+```
+If encounter installation problem from the `diff-gaussian-rasterization` or `gridencoder`, please refer to [gaussian-splatting](https://github.com/graphdeco-inria/gaussian-splatting) and [torch-ngp](https://github.com/ashawkey/torch-ngp).
+### Preparation
+- Prepare face-parsing model and  the 3DMM model for head pose estimation.
+  ```bash
+  bash scripts/prepare.sh
+  ```
+- Download 3DMM model from [Basel Face Model 2009](https://faces.dmi.unibas.ch/bfm/main.php?nav=1-1-0&id=details):
+  ```bash
+  # 1. copy 01_MorphableModel.mat to data_util/face_tracking/3DMM/
+  # 2. run following
+  cd data_utils/face_tracking
+  python convert_BFM.py
+  ```
+- Prepare the environment for [EasyPortrait](https://github.com/hukenovs/easyportrait):
+  ```bash
+  # prepare mmcv
+  conda activate talking_gaussian
+  pip install -U openmim
+  mim install mmcv-full==1.7.1
+  # download model weight
+  cd data_utils/easyportrait
+  wget "https://n-ws-620xz-pd11.s3pd11.sbercloud.ru/b-ws-620xz-pd11-jux/easyportrait/experiments/models/fpn-fp-512.pth"
+  ```
+## Usage
+### Important Notice
+- This code is provided for research purposes only. The author makes no warranties, express or implied, as to the accuracy, completeness, or fitness for a particular purpose of the code. Use this code at your own risk.
+- The author explicitly prohibits the use of this code for any malicious or illegal activities. By using this code, you agree to comply with all applicable laws and regulations, and you agree not to use it to harm others or to perform any actions that would be considered unethical or illegal.
+- The author will not be responsible for any damages, losses, or issues that arise from the use of this code.
+- Users are encouraged to use this code responsibly and ethically.
+### Video Dataset
+[Here](https://drive.google.com/drive/folders/1E_8W805lioIznqbkvTQHWWi5IFXUG7Er?usp=drive_link) we provide two video clips used in our experiments, which are captured from YouTube. Please respect the original content creators' rights and comply with YouTube’s copyright policies in the usage.
+Other used videos can be found from [GeneFace](https://github.com/yerfor/GeneFace) and [AD-NeRF](https://github.com/YudongGuo/AD-NeRF).
+### Pre-processing Training Video
+* Put training video under `data/<ID>/<ID>.mp4`.
+  The video **must be 25FPS, with all frames containing the talking person**.
+  The resolution should be about 512x512, and duration about 1-5 min.
+* Run script to process the video.
+  ```bash
+  python data_utils/process.py data/<ID>/<ID>.mp4
+  ```
+* Obtain Action Units
+  Run `FeatureExtraction` in [OpenFace](https://github.com/TadasBaltrusaitis/OpenFace), rename and move the output CSV file to `data/<ID>/au.csv`.
+* Generate tooth masks
+  ```bash
+  export PYTHONPATH=./data_utils/easyportrait
+  python ./data_utils/easyportrait/create_teeth_mask.py ./data/<ID>
+  ```
+### Audio Pre-process
+In our paper, we use DeepSpeech features for evaluation.
+* DeepSpeech
+  ```bash
+  python data_utils/deepspeech_features/extract_ds_features.py --input data/<name>.wav # saved to data/<name>.npy
+  ```
+- HuBERT
+  Similar to ER-NeRF, HuBERT is also available. Recommended for situations if the audio is not in English.
+  Specify `--audio_extractor hubert` when training and testing.
+  ```
+  python data_utils/hubert.py --wav data/<name>.wav # save to data/<name>_hu.npy
+  ```
+### Train
+```bash
+# If resources are sufficient, partially parallel is available to speed up the training. See the script.
+bash scripts/train_xx.sh data/<ID> output/<project_name> <GPU_ID>
+```
+### Test
+```bash
+# saved to output/<project_name>/test/ours_None/renders
+python synthesize_fuse.py -S data/<ID> -M output/<project_name> --eval
+```
+### Inference with target audio
+```bash
+python synthesize_fuse.py -S data/<ID> -M output/<project_name> --use_train --audio <preprocessed_audio_feature>.npy
+```
+## Citation
+Consider citing as below if you find this repository helpful to your project:
+```
+@article{li2024talkinggaussian,
+    title={TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting},
+    author={Jiahe Li and Jiawei Zhang and Xiao Bai and Jin Zheng and Xin Ning and Jun Zhou and Lin Gu},
+    journal={arXiv preprint arXiv:2404.15264},
+    year={2024}
+}
+```
+## Acknowledgement
+This code is developed on [gaussian-splatting](https://github.com/graphdeco-inria/gaussian-splatting) with [simple-knn](https://gitlab.inria.fr/bkerbl/simple-knn), and a modified [diff-gaussian-rasterization](https://github.com/ashawkey/diff-gaussian-rasterization). Partial codes are from [RAD-NeRF](https://github.com/ashawkey/RAD-NeRF), [DFRF](https://github.com/sstzal/DFRF), [GeneFace](https://github.com/yerfor/GeneFace), and [AD-NeRF](https://github.com/YudongGuo/AD-NeRF). Teeth mask is from [EasyPortrait](https://github.com/hukenovs/easyportrait). Thanks for these great projects!

arguments/__init__.py ADDED Viewed

	@@ -0,0 +1,118 @@

+#
+# Copyright (C) 2023, Inria
+# GRAPHDECO research group, https://team.inria.fr/graphdeco
+# All rights reserved.
+#
+# This software is free for non-commercial, research and evaluation use
+# under the terms of the LICENSE.md file.
+#
+# For inquiries contact  [email protected]
+#
+from argparse import ArgumentParser, Namespace
+import sys
+import os
+class GroupParams:
+    pass
+class ParamGroup:
+    def __init__(self, parser: ArgumentParser, name : str, fill_none = False):
+        group = parser.add_argument_group(name)
+        for key, value in vars(self).items():
+            shorthand = False
+            if key.startswith("_"):
+                shorthand = True
+                key = key[1:]
+            t = type(value)
+            value = value if not fill_none else None
+            if shorthand:
+                if t == bool:
+                    group.add_argument("--" + key, ("-" + key[0:1]), ("-" + key[0:1].upper()), default=value, action="store_true")
+                else:
+                    group.add_argument("--" + key, ("-" + key[0:1]), ("-" + key[0:1].upper()), default=value, type=t)
+            else:
+                if t == bool:
+                    group.add_argument("--" + key, default=value, action="store_true")
+                else:
+                    group.add_argument("--" + key, default=value, type=t)
+    def extract(self, args):
+        group = GroupParams()
+        for arg in vars(args).items():
+            if arg[0] in vars(self) or ("_" + arg[0]) in vars(self):
+                setattr(group, arg[0], arg[1])
+        return group
+class ModelParams(ParamGroup):
+    def __init__(self, parser, sentinel=False):
+        self.sh_degree = 2
+        self._source_path = ""
+        self._model_path = ""
+        self._images = "images"
+        self._resolution = -1
+        self._white_background = False
+        self.data_device = "cpu"
+        self.eval = False
+        self.audio = ""
+        self.init_num = 10_000
+        self.audio_extractor = "deepspeech"
+        super().__init__(parser, "Loading Parameters", sentinel)
+    def extract(self, args):
+        g = super().extract(args)
+        g.source_path = os.path.abspath(g.source_path)
+        return g
+class PipelineParams(ParamGroup):
+    def __init__(self, parser):
+        self.convert_SHs_python = False
+        self.compute_cov3D_python = False
+        self.debug = False
+        super().__init__(parser, "Pipeline Parameters")
+class OptimizationParams(ParamGroup):
+    def __init__(self, parser):
+        self.iterations = 50_000
+        self.position_lr_init = 0.00016
+        self.position_lr_final = 0.0000016
+        self.position_lr_delay_mult = 0.01
+        self.position_lr_max_steps = 45_000
+        self.feature_lr = 0.0025
+        self.opacity_lr = 0.05
+        self.scaling_lr = 0.003
+        self.rotation_lr = 0.001
+        self.percent_dense = 0.005
+        self.lambda_dssim = 0.2
+        self.densification_interval = 100
+        self.opacity_reset_interval = 3000
+        self.densify_from_iter = 500
+        self.densify_until_iter = 45_000
+        self.densify_grad_threshold = 0.0002
+        self.random_background = False
+        super().__init__(parser, "Optimization Parameters")
+def get_combined_args(parser : ArgumentParser):
+    cmdlne_string = sys.argv[1:]
+    cfgfile_string = "Namespace()"
+    args_cmdline = parser.parse_args(cmdlne_string)
+    try:
+        cfgfilepath = os.path.join(args_cmdline.model_path, "cfg_args")
+        print("Looking for config file in", cfgfilepath)
+        with open(cfgfilepath) as cfg_file:
+            print("Config file found: {}".format(cfgfilepath))
+            cfgfile_string = cfg_file.read()
+    except TypeError:
+        print("Config file not found at")
+        pass
+    args_cfgfile = eval(cfgfile_string)
+    merged_dict = vars(args_cfgfile).copy()
+    for k,v in vars(args_cmdline).items():
+        if v != None:
+            merged_dict[k] = v
+    return Namespace(**merged_dict)

assets/main.png ADDED Viewed

data/.gitkeep ADDED Viewed

File without changes

data_utils/deepspeech_features/README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+# Routines for DeepSpeech features processing
+Several routines for [DeepSpeech](https://github.com/mozilla/DeepSpeech) features processing, like speech features generation for [VOCA](https://github.com/TimoBolkart/voca) model.
+## Installation
+```
+pip3 install -r requirements.txt
+```
+## Usage
+Generate wav files:
+```
+python3 extract_wav.py --in-video=<you_data_dir>
+```
+Generate files with DeepSpeech features:
+```
+python3 extract_ds_features.py --input=<you_data_dir>
+```

data_utils/deepspeech_features/deepspeech_features.py ADDED Viewed

	@@ -0,0 +1,274 @@

+"""
+    DeepSpeech features processing routines.
+    NB: Based on VOCA code. See the corresponding license restrictions.
+"""
+__all__ = ['conv_audios_to_deepspeech']
+import numpy as np
+import warnings
+import resampy
+from scipy.io import wavfile
+from python_speech_features import mfcc
+import tensorflow.compat.v1 as tf
+tf.disable_v2_behavior()
+def conv_audios_to_deepspeech(audios,
+                              out_files,
+                              num_frames_info,
+                              deepspeech_pb_path,
+                              audio_window_size=1,
+                              audio_window_stride=1):
+    """
+    Convert list of audio files into files with DeepSpeech features.
+    Parameters
+    ----------
+    audios : list of str or list of None
+        Paths to input audio files.
+    out_files : list of str
+        Paths to output files with DeepSpeech features.
+    num_frames_info : list of int
+        List of numbers of frames.
+    deepspeech_pb_path : str
+        Path to DeepSpeech 0.1.0 frozen model.
+    audio_window_size : int, default 16
+        Audio window size.
+    audio_window_stride : int, default 1
+        Audio window stride.
+    """
+    graph, logits_ph, input_node_ph, input_lengths_ph = prepare_deepspeech_net(
+        deepspeech_pb_path)
+    with tf.compat.v1.Session(graph=graph) as sess:
+        for audio_file_path, out_file_path, num_frames in zip(audios, out_files, num_frames_info):
+            print(audio_file_path)
+            print(out_file_path)
+            audio_sample_rate, audio = wavfile.read(audio_file_path)
+            if audio.ndim != 1:
+                warnings.warn(
+                    "Audio has multiple channels, the first channel is used")
+                audio = audio[:, 0]
+            ds_features = pure_conv_audio_to_deepspeech(
+                audio=audio,
+                audio_sample_rate=audio_sample_rate,
+                audio_window_size=audio_window_size,
+                audio_window_stride=audio_window_stride,
+                num_frames=num_frames,
+                net_fn=lambda x: sess.run(
+                    logits_ph,
+                    feed_dict={
+                        input_node_ph: x[np.newaxis, ...],
+                        input_lengths_ph: [x.shape[0]]}))
+            net_output = ds_features.reshape(-1, 29)
+            win_size = 16
+            zero_pad = np.zeros((int(win_size / 2), net_output.shape[1]))
+            net_output = np.concatenate(
+                (zero_pad, net_output, zero_pad), axis=0)
+            windows = []
+            for window_index in range(0, net_output.shape[0] - win_size, 2):
+                windows.append(
+                    net_output[window_index:window_index + win_size])
+            print(np.array(windows).shape)
+            np.save(out_file_path, np.array(windows))
+def prepare_deepspeech_net(deepspeech_pb_path):
+    """
+    Load and prepare DeepSpeech network.
+    Parameters
+    ----------
+    deepspeech_pb_path : str
+        Path to DeepSpeech 0.1.0 frozen model.
+    Returns
+    -------
+    graph : obj
+        ThensorFlow graph.
+    logits_ph : obj
+        ThensorFlow placeholder for `logits`.
+    input_node_ph : obj
+        ThensorFlow placeholder for `input_node`.
+    input_lengths_ph : obj
+        ThensorFlow placeholder for `input_lengths`.
+    """
+    # Load graph and place_holders:
+    with tf.io.gfile.GFile(deepspeech_pb_path, "rb") as f:
+        graph_def = tf.compat.v1.GraphDef()
+        graph_def.ParseFromString(f.read())
+    graph = tf.compat.v1.get_default_graph()
+    tf.import_graph_def(graph_def, name="deepspeech")
+    logits_ph = graph.get_tensor_by_name("deepspeech/logits:0")
+    input_node_ph = graph.get_tensor_by_name("deepspeech/input_node:0")
+    input_lengths_ph = graph.get_tensor_by_name("deepspeech/input_lengths:0")
+    return graph, logits_ph, input_node_ph, input_lengths_ph
+def pure_conv_audio_to_deepspeech(audio,
+                                  audio_sample_rate,
+                                  audio_window_size,
+                                  audio_window_stride,
+                                  num_frames,
+                                  net_fn):
+    """
+    Core routine for converting audion into DeepSpeech features.
+    Parameters
+    ----------
+    audio : np.array
+        Audio data.
+    audio_sample_rate : int
+        Audio sample rate.
+    audio_window_size : int
+        Audio window size.
+    audio_window_stride : int
+        Audio window stride.
+    num_frames : int or None
+        Numbers of frames.
+    net_fn : func
+        Function for DeepSpeech model call.
+    Returns
+    -------
+    np.array
+        DeepSpeech features.
+    """
+    target_sample_rate = 16000
+    if audio_sample_rate != target_sample_rate:
+        resampled_audio = resampy.resample(
+            x=audio.astype(np.float),
+            sr_orig=audio_sample_rate,
+            sr_new=target_sample_rate)
+    else:
+        resampled_audio = audio.astype(np.float32)
+    input_vector = conv_audio_to_deepspeech_input_vector(
+        audio=resampled_audio.astype(np.int16),
+        sample_rate=target_sample_rate,
+        num_cepstrum=26,
+        num_context=9)
+    network_output = net_fn(input_vector)
+    # print(network_output.shape)
+    deepspeech_fps = 50
+    video_fps = 50  # Change this option if video fps is different
+    audio_len_s = float(audio.shape[0]) / audio_sample_rate
+    if num_frames is None:
+        num_frames = int(round(audio_len_s * video_fps))
+    else:
+        video_fps = num_frames / audio_len_s
+    network_output = interpolate_features(
+        features=network_output[:, 0],
+        input_rate=deepspeech_fps,
+        output_rate=video_fps,
+        output_len=num_frames)
+    # Make windows:
+    zero_pad = np.zeros((int(audio_window_size / 2), network_output.shape[1]))
+    network_output = np.concatenate(
+        (zero_pad, network_output, zero_pad), axis=0)
+    windows = []
+    for window_index in range(0, network_output.shape[0] - audio_window_size, audio_window_stride):
+        windows.append(
+            network_output[window_index:window_index + audio_window_size])
+    return np.array(windows)
+def conv_audio_to_deepspeech_input_vector(audio,
+                                          sample_rate,
+                                          num_cepstrum,
+                                          num_context):
+    """
+    Convert audio raw data into DeepSpeech input vector.
+    Parameters
+    ----------
+    audio : np.array
+        Audio data.
+    audio_sample_rate : int
+        Audio sample rate.
+    num_cepstrum : int
+        Number of cepstrum.
+    num_context : int
+        Number of context.
+    Returns
+    -------
+    np.array
+        DeepSpeech input vector.
+    """
+    # Get mfcc coefficients:
+    features = mfcc(
+        signal=audio,
+        samplerate=sample_rate,
+        numcep=num_cepstrum)
+    # We only keep every second feature (BiRNN stride = 2):
+    features = features[::2]
+    # One stride per time step in the input:
+    num_strides = len(features)
+    # Add empty initial and final contexts:
+    empty_context = np.zeros((num_context, num_cepstrum), dtype=features.dtype)
+    features = np.concatenate((empty_context, features, empty_context))
+    # Create a view into the array with overlapping strides of size
+    # numcontext (past) + 1 (present) + numcontext (future):
+    window_size = 2 * num_context + 1
+    train_inputs = np.lib.stride_tricks.as_strided(
+        features,
+        shape=(num_strides, window_size, num_cepstrum),
+        strides=(features.strides[0],
+                 features.strides[0], features.strides[1]),
+        writeable=False)
+    # Flatten the second and third dimensions:
+    train_inputs = np.reshape(train_inputs, [num_strides, -1])
+    train_inputs = np.copy(train_inputs)
+    train_inputs = (train_inputs - np.mean(train_inputs)) / \
+        np.std(train_inputs)
+    return train_inputs
+def interpolate_features(features,
+                         input_rate,
+                         output_rate,
+                         output_len):
+    """
+    Interpolate DeepSpeech features.
+    Parameters
+    ----------
+    features : np.array
+        DeepSpeech features.
+    input_rate : int
+        input rate (FPS).
+    output_rate : int
+        Output rate (FPS).
+    output_len : int
+        Output data length.
+    Returns
+    -------
+    np.array
+        Interpolated data.
+    """
+    input_len = features.shape[0]
+    num_features = features.shape[1]
+    input_timestamps = np.arange(input_len) / float(input_rate)
+    output_timestamps = np.arange(output_len) / float(output_rate)
+    output_features = np.zeros((output_len, num_features))
+    for feature_idx in range(num_features):
+        output_features[:, feature_idx] = np.interp(
+            x=output_timestamps,
+            xp=input_timestamps,
+            fp=features[:, feature_idx])
+    return output_features

data_utils/deepspeech_features/deepspeech_store.py ADDED Viewed

	@@ -0,0 +1,172 @@

+"""
+    Routines for loading DeepSpeech model.
+"""
+__all__ = ['get_deepspeech_model_file']
+import os
+import zipfile
+import logging
+import hashlib
+deepspeech_features_repo_url = 'https://github.com/osmr/deepspeech_features'
+def get_deepspeech_model_file(local_model_store_dir_path=os.path.join("~", ".tensorflow", "models")):
+    """
+    Return location for the pretrained on local file system. This function will download from online model zoo when
+    model cannot be found or has mismatch. The root directory will be created if it doesn't exist.
+    Parameters
+    ----------
+    local_model_store_dir_path : str, default $TENSORFLOW_HOME/models
+        Location for keeping the model parameters.
+    Returns
+    -------
+    file_path
+        Path to the requested pretrained model file.
+    """
+    sha1_hash = "b90017e816572ddce84f5843f1fa21e6a377975e"
+    file_name = "deepspeech-0_1_0-b90017e8.pb"
+    local_model_store_dir_path = os.path.expanduser(local_model_store_dir_path)
+    file_path = os.path.join(local_model_store_dir_path, file_name)
+    if os.path.exists(file_path):
+        if _check_sha1(file_path, sha1_hash):
+            return file_path
+        else:
+            logging.warning("Mismatch in the content of model file detected. Downloading again.")
+    else:
+        logging.info("Model file not found. Downloading to {}.".format(file_path))
+    if not os.path.exists(local_model_store_dir_path):
+        os.makedirs(local_model_store_dir_path)
+    zip_file_path = file_path + ".zip"
+    _download(
+        url="{repo_url}/releases/download/{repo_release_tag}/{file_name}.zip".format(
+            repo_url=deepspeech_features_repo_url,
+            repo_release_tag="v0.0.1",
+            file_name=file_name),
+        path=zip_file_path,
+        overwrite=True)
+    with zipfile.ZipFile(zip_file_path) as zf:
+        zf.extractall(local_model_store_dir_path)
+    os.remove(zip_file_path)
+    if _check_sha1(file_path, sha1_hash):
+        return file_path
+    else:
+        raise ValueError("Downloaded file has different hash. Please try again.")
+def _download(url, path=None, overwrite=False, sha1_hash=None, retries=5, verify_ssl=True):
+    """
+    Download an given URL
+    Parameters
+    ----------
+    url : str
+        URL to download
+    path : str, optional
+        Destination path to store downloaded file. By default stores to the
+        current directory with same name as in url.
+    overwrite : bool, optional
+        Whether to overwrite destination file if already exists.
+    sha1_hash : str, optional
+        Expected sha1 hash in hexadecimal digits. Will ignore existing file when hash is specified
+        but doesn't match.
+    retries : integer, default 5
+        The number of times to attempt the download in case of failure or non 200 return codes
+    verify_ssl : bool, default True
+        Verify SSL certificates.
+    Returns
+    -------
+    str
+        The file path of the downloaded file.
+    """
+    import warnings
+    try:
+        import requests
+    except ImportError:
+        class requests_failed_to_import(object):
+            pass
+        requests = requests_failed_to_import
+    if path is None:
+        fname = url.split("/")[-1]
+        # Empty filenames are invalid
+        assert fname, "Can't construct file-name from this URL. Please set the `path` option manually."
+    else:
+        path = os.path.expanduser(path)
+        if os.path.isdir(path):
+            fname = os.path.join(path, url.split("/")[-1])
+        else:
+            fname = path
+    assert retries >= 0, "Number of retries should be at least 0"
+    if not verify_ssl:
+        warnings.warn(
+            "Unverified HTTPS request is being made (verify_ssl=False). "
+            "Adding certificate verification is strongly advised.")
+    if overwrite or not os.path.exists(fname) or (sha1_hash and not _check_sha1(fname, sha1_hash)):
+        dirname = os.path.dirname(os.path.abspath(os.path.expanduser(fname)))
+        if not os.path.exists(dirname):
+            os.makedirs(dirname)
+        while retries + 1 > 0:
+            # Disable pyling too broad Exception
+            # pylint: disable=W0703
+            try:
+                print("Downloading {} from {}...".format(fname, url))
+                r = requests.get(url, stream=True, verify=verify_ssl)
+                if r.status_code != 200:
+                    raise RuntimeError("Failed downloading url {}".format(url))
+                with open(fname, "wb") as f:
+                    for chunk in r.iter_content(chunk_size=1024):
+                        if chunk:  # filter out keep-alive new chunks
+                            f.write(chunk)
+                if sha1_hash and not _check_sha1(fname, sha1_hash):
+                    raise UserWarning("File {} is downloaded but the content hash does not match."
+                                      " The repo may be outdated or download may be incomplete. "
+                                      "If the `repo_url` is overridden, consider switching to "
+                                      "the default repo.".format(fname))
+                break
+            except Exception as e:
+                retries -= 1
+                if retries <= 0:
+                    raise e
+                else:
+                    print("download failed, retrying, {} attempt{} left"
+                          .format(retries, "s" if retries > 1 else ""))
+    return fname
+def _check_sha1(filename, sha1_hash):
+    """
+    Check whether the sha1 hash of the file content matches the expected hash.
+    Parameters
+    ----------
+    filename : str
+        Path to the file.
+    sha1_hash : str
+        Expected sha1 hash in hexadecimal digits.
+    Returns
+    -------
+    bool
+        Whether the file content matches the expected hash.
+    """
+    sha1 = hashlib.sha1()
+    with open(filename, "rb") as f:
+        while True:
+            data = f.read(1048576)
+            if not data:
+                break
+            sha1.update(data)
+    return sha1.hexdigest() == sha1_hash

data_utils/deepspeech_features/extract_ds_features.py ADDED Viewed

	@@ -0,0 +1,130 @@

+"""
+    Script for extracting DeepSpeech features from audio file.
+"""
+import os
+import argparse
+import numpy as np
+import pandas as pd
+from deepspeech_store import get_deepspeech_model_file
+from deepspeech_features import conv_audios_to_deepspeech
+def parse_args():
+    """
+    Create python script parameters.
+    Returns
+    -------
+    ArgumentParser
+        Resulted args.
+    """
+    parser = argparse.ArgumentParser(
+        description="Extract DeepSpeech features from audio file",
+        formatter_class=argparse.ArgumentDefaultsHelpFormatter)
+    parser.add_argument(
+        "--input",
+        type=str,
+        required=True,
+        help="path to input audio file or directory")
+    parser.add_argument(
+        "--output",
+        type=str,
+        help="path to output file with DeepSpeech features")
+    parser.add_argument(
+        "--deepspeech",
+        type=str,
+        help="path to DeepSpeech 0.1.0 frozen model")
+    parser.add_argument(
+        "--metainfo",
+        type=str,
+        help="path to file with meta-information")
+    args = parser.parse_args()
+    return args
+def extract_features(in_audios,
+                     out_files,
+                     deepspeech_pb_path,
+                     metainfo_file_path=None):
+    """
+    Real extract audio from video file.
+    Parameters
+    ----------
+    in_audios : list of str
+        Paths to input audio files.
+    out_files : list of str
+        Paths to output files with DeepSpeech features.
+    deepspeech_pb_path : str
+        Path to DeepSpeech 0.1.0 frozen model.
+    metainfo_file_path : str, default None
+        Path to file with meta-information.
+    """
+    if metainfo_file_path is None:
+        num_frames_info = [None] * len(in_audios)
+    else:
+        train_df = pd.read_csv(
+            metainfo_file_path,
+            sep="\t",
+            index_col=False,
+            dtype={"Id": np.int, "File": np.unicode, "Count": np.int})
+        num_frames_info = train_df["Count"].values
+        assert (len(num_frames_info) == len(in_audios))
+    for i, in_audio in enumerate(in_audios):
+        if not out_files[i]:
+            file_stem, _ = os.path.splitext(in_audio)
+            out_files[i] = file_stem + ".npy"
+            #print(out_files[i])
+    conv_audios_to_deepspeech(
+        audios=in_audios,
+        out_files=out_files,
+        num_frames_info=num_frames_info,
+        deepspeech_pb_path=deepspeech_pb_path)
+def main():
+    """
+    Main body of script.
+    """
+    args = parse_args()
+    in_audio = os.path.expanduser(args.input)
+    if not os.path.exists(in_audio):
+        raise Exception("Input file/directory doesn't exist: {}".format(in_audio))
+    deepspeech_pb_path = args.deepspeech
+    #add
+    deepspeech_pb_path = True
+    args.deepspeech = '~/.tensorflow/models/deepspeech-0_1_0-b90017e8.pb'
+    if deepspeech_pb_path is None:
+        deepspeech_pb_path = ""
+    if deepspeech_pb_path:
+        deepspeech_pb_path = os.path.expanduser(args.deepspeech)
+    if not os.path.exists(deepspeech_pb_path):
+        deepspeech_pb_path = get_deepspeech_model_file()
+    if os.path.isfile(in_audio):
+        extract_features(
+            in_audios=[in_audio],
+            out_files=[args.output],
+            deepspeech_pb_path=deepspeech_pb_path,
+            metainfo_file_path=args.metainfo)
+    else:
+        audio_file_paths = []
+        for file_name in os.listdir(in_audio):
+            if not os.path.isfile(os.path.join(in_audio, file_name)):
+                continue
+            _, file_ext = os.path.splitext(file_name)
+            if file_ext.lower() == ".wav":
+                audio_file_path = os.path.join(in_audio, file_name)
+                audio_file_paths.append(audio_file_path)
+        audio_file_paths = sorted(audio_file_paths)
+        out_file_paths = [""] * len(audio_file_paths)
+        extract_features(
+            in_audios=audio_file_paths,
+            out_files=out_file_paths,
+            deepspeech_pb_path=deepspeech_pb_path,
+            metainfo_file_path=args.metainfo)
+if __name__ == "__main__":
+    main()

data_utils/deepspeech_features/extract_wav.py ADDED Viewed

	@@ -0,0 +1,87 @@

+"""
+    Script for extracting audio (16-bit, mono, 22000 Hz) from video file.
+"""
+import os
+import argparse
+import subprocess
+def parse_args():
+    """
+    Create python script parameters.
+    Returns
+    -------
+    ArgumentParser
+        Resulted args.
+    """
+    parser = argparse.ArgumentParser(
+        description="Extract audio from video file",
+        formatter_class=argparse.ArgumentDefaultsHelpFormatter)
+    parser.add_argument(
+        "--in-video",
+        type=str,
+        required=True,
+        help="path to input video file or directory")
+    parser.add_argument(
+        "--out-audio",
+        type=str,
+        help="path to output audio file")
+    args = parser.parse_args()
+    return args
+def extract_audio(in_video,
+                  out_audio):
+    """
+    Real extract audio from video file.
+    Parameters
+    ----------
+    in_video : str
+        Path to input video file.
+    out_audio : str
+        Path to output audio file.
+    """
+    if not out_audio:
+        file_stem, _ = os.path.splitext(in_video)
+        out_audio = file_stem + ".wav"
+    # command1 = "ffmpeg -i {in_video} -vn -acodec copy {aac_audio}"
+    # command2 = "ffmpeg -i {aac_audio} -vn -acodec pcm_s16le -ac 1 -ar 22000 {out_audio}"
+    # command = "ffmpeg -i {in_video} -vn -acodec pcm_s16le -ac 1 -ar 22000 {out_audio}"
+    command = "ffmpeg -i {in_video} -vn -acodec pcm_s16le -ac 1 -ar 16000 {out_audio}"
+    subprocess.call([command.format(in_video=in_video, out_audio=out_audio)], shell=True)
+def main():
+    """
+    Main body of script.
+    """
+    args = parse_args()
+    in_video = os.path.expanduser(args.in_video)
+    if not os.path.exists(in_video):
+        raise Exception("Input file/directory doesn't exist: {}".format(in_video))
+    if os.path.isfile(in_video):
+        extract_audio(
+            in_video=in_video,
+            out_audio=args.out_audio)
+    else:
+        video_file_paths = []
+        for file_name in os.listdir(in_video):
+            if not os.path.isfile(os.path.join(in_video, file_name)):
+                continue
+            _, file_ext = os.path.splitext(file_name)
+            if file_ext.lower() in (".mp4", ".mkv", ".avi"):
+                video_file_path = os.path.join(in_video, file_name)
+                video_file_paths.append(video_file_path)
+        video_file_paths = sorted(video_file_paths)
+        for video_file_path in video_file_paths:
+            extract_audio(
+                in_video=video_file_path,
+                out_audio="")
+if __name__ == "__main__":
+    main()

data_utils/deepspeech_features/fea_win.py ADDED Viewed

	@@ -0,0 +1,11 @@

+import numpy as np
+net_output = np.load('french.ds.npy').reshape(-1, 29)
+win_size = 16
+zero_pad = np.zeros((int(win_size / 2), net_output.shape[1]))
+net_output = np.concatenate((zero_pad, net_output, zero_pad), axis=0)
+windows = []
+for window_index in range(0, net_output.shape[0] - win_size, 2):
+        windows.append(net_output[window_index:window_index + win_size])
+print(np.array(windows).shape)
+np.save('aud_french.npy', np.array(windows))

data_utils/easyportrait/create_teeth_mask.py ADDED Viewed

	@@ -0,0 +1,34 @@

+# Copyright (c) OpenMMLab. All rights reserved.
+from argparse import ArgumentParser
+from mmseg.apis import inference_segmentor, init_segmentor, show_result_pyplot
+import os
+import glob
+from tqdm import tqdm
+import numpy as np
+def main():
+    parser = ArgumentParser()
+    parser.add_argument('datset', help='Image file')
+    parser.add_argument('--config', default="./data_utils/easyportrait/local_configs/easyportrait_experiments_v2/fpn-fp/fpn-fp.py", help='Config file')
+    parser.add_argument('--checkpoint', default="./data_utils/easyportrait/fpn-fp-512.pth", help='Checkpoint file')
+    args = parser.parse_args()
+    # build the model from a config file and a checkpoint file
+    model = init_segmentor(args.config, args.checkpoint, device='cuda:0')
+    # test a single image
+    dataset_path = os.path.join(args.datset, 'ori_imgs')
+    out_path = os.path.join(args.datset, 'teeth_mask')
+    os.makedirs(out_path, exist_ok=True)
+    for file in tqdm(glob.glob(os.path.join(dataset_path, '*.jpg'))):
+        result = inference_segmentor(model, file)
+        result[0][result[0]!=7] = 0
+        np.save(file.replace('jpg', 'npy').replace('ori_imgs', 'teeth_mask'), result[0].astype(np.bool_))
+if __name__ == '__main__':
+    main()

data_utils/easyportrait/local_configs/__base__/datasets/easyportrait_1024x1024.py ADDED Viewed

	@@ -0,0 +1,59 @@

+# dataset settings
+dataset_type = 'EasyPortraitDataset'
+data_root = 'path/to/data/EasyPortrait'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='Pad', size=(1920, 1920), pad_val=0, seg_pad_val=255),
+    dict(type='Resize', img_scale=(1024, 1024)),
+    # We don't use RandomFlip, but need it in the code to fix error: https://github.com/open-mmlab/mmsegmentation/issues/231
+    dict(type='RandomFlip', prob=0.0),
+    dict(type='PhotoMetricDistortion',
+         brightness_delta=16,
+         contrast_range=(0.5, 1.0),
+         saturation_range=(0.5, 1.0),
+         hue_delta=9),
+    dict(type='Normalize', **img_norm_cfg),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg']),
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1024, 1024),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='Normalize', **img_norm_cfg),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img']),
+        ])
+]
+data = dict(
+    samples_per_gpu=4,
+    workers_per_gpu=4,
+    train=dict(
+        type=dataset_type,
+        data_root=data_root,
+        img_dir='images/train',
+        ann_dir='annotations/train',
+        pipeline=train_pipeline),
+    val=dict(
+        type=dataset_type,
+        data_root=data_root,
+        img_dir='images/val',
+        ann_dir='annotations/val',
+        pipeline=test_pipeline),
+    test=dict(
+        type=dataset_type,
+        data_root=data_root,
+        img_dir='images/test',
+        ann_dir='annotations/test',
+        pipeline=test_pipeline))

data_utils/easyportrait/local_configs/__base__/datasets/easyportrait_384x384.py ADDED Viewed

	@@ -0,0 +1,59 @@

+# dataset settings
+dataset_type = 'EasyPortraitDataset'
+data_root = 'path/to/data/EasyPortrait'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='Pad', size=(1920, 1920), pad_val=0, seg_pad_val=255),
+    dict(type='Resize', img_scale=(384, 384)),
+    # We don't use RandomFlip, but need it in the code to fix error: https://github.com/open-mmlab/mmsegmentation/issues/231
+    dict(type='RandomFlip', prob=0.0),
+    dict(type='PhotoMetricDistortion',
+         brightness_delta=16,
+         contrast_range=(0.5, 1.0),
+         saturation_range=(0.5, 1.0),
+         hue_delta=9),
+    dict(type='Normalize', **img_norm_cfg),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg']),
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(384, 384),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='Normalize', **img_norm_cfg),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img']),
+        ])
+]
+data = dict(
+    samples_per_gpu=4,
+    workers_per_gpu=4,
+    train=dict(
+        type=dataset_type,
+        data_root=data_root,
+        img_dir='images/train',
+        ann_dir='annotations/train',
+        pipeline=train_pipeline),
+    val=dict(
+        type=dataset_type,
+        data_root=data_root,
+        img_dir='images/val',
+        ann_dir='annotations/val',
+        pipeline=test_pipeline),
+    test=dict(
+        type=dataset_type,
+        data_root=data_root,
+        img_dir='images/test',
+        ann_dir='annotations/test',
+        pipeline=test_pipeline))

data_utils/easyportrait/local_configs/__base__/datasets/easyportrait_512x512.py ADDED Viewed

	@@ -0,0 +1,59 @@

+# dataset settings
+dataset_type = 'EasyPortraitDataset'
+data_root = 'path/to/data/EasyPortrait'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='Pad', size=(1920, 1920), pad_val=0, seg_pad_val=255),
+    dict(type='Resize', img_scale=(512, 512)),
+    # We don't use RandomFlip, but need it in the code to fix error: https://github.com/open-mmlab/mmsegmentation/issues/231
+    dict(type='RandomFlip', prob=0.0),
+    dict(type='PhotoMetricDistortion',
+         brightness_delta=16,
+         contrast_range=(0.5, 1.0),
+         saturation_range=(0.5, 1.0),
+         hue_delta=9),
+    dict(type='Normalize', **img_norm_cfg),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg']),
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(512, 512),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='Normalize', **img_norm_cfg),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img']),
+        ])
+]
+data = dict(
+    samples_per_gpu=4,
+    workers_per_gpu=4,
+    train=dict(
+        type=dataset_type,
+        data_root=data_root,
+        img_dir='images/train',
+        ann_dir='annotations/train',
+        pipeline=train_pipeline),
+    val=dict(
+        type=dataset_type,
+        data_root=data_root,
+        img_dir='images/val',
+        ann_dir='annotations/val',
+        pipeline=test_pipeline),
+    test=dict(
+        type=dataset_type,
+        data_root=data_root,
+        img_dir='images/test',
+        ann_dir='annotations/test',
+        pipeline=test_pipeline))

data_utils/easyportrait/local_configs/__base__/default_runtime.py ADDED Viewed

	@@ -0,0 +1,14 @@

+# yapf:disable
+log_config = dict(
+    interval=50,
+    hooks=[
+        dict(type='TextLoggerHook', by_epoch=False),
+        # dict(type='TensorboardLoggerHook')
+    ])
+# yapf:enable
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True

data_utils/easyportrait/local_configs/__base__/models/bisenetv2.py ADDED Viewed

	@@ -0,0 +1,80 @@

+# model settings
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained=None,
+    backbone=dict(
+        type='BiSeNetV2',
+        detail_channels=(64, 64, 128),
+        semantic_channels=(16, 32, 64, 128),
+        semantic_expansion_ratio=6,
+        bga_channels=128,
+        out_indices=(0, 1, 2, 3, 4),
+        init_cfg=None,
+        align_corners=False),
+    decode_head=dict(
+        type='FCNHead',
+        in_channels=128,
+        in_index=0,
+        channels=1024,
+        num_convs=1,
+        concat_input=False,
+        dropout_ratio=0.1,
+        num_classes=19,
+        norm_cfg=norm_cfg,
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    auxiliary_head=[
+        dict(
+            type='FCNHead',
+            in_channels=16,
+            channels=16,
+            num_convs=2,
+            num_classes=19,
+            in_index=1,
+            norm_cfg=norm_cfg,
+            concat_input=False,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+        dict(
+            type='FCNHead',
+            in_channels=32,
+            channels=64,
+            num_convs=2,
+            num_classes=19,
+            in_index=2,
+            norm_cfg=norm_cfg,
+            concat_input=False,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+        dict(
+            type='FCNHead',
+            in_channels=64,
+            channels=256,
+            num_convs=2,
+            num_classes=19,
+            in_index=3,
+            norm_cfg=norm_cfg,
+            concat_input=False,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+        dict(
+            type='FCNHead',
+            in_channels=128,
+            channels=1024,
+            num_convs=2,
+            num_classes=19,
+            in_index=4,
+            norm_cfg=norm_cfg,
+            concat_input=False,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    ],
+    # model training and testing settings
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))

data_utils/easyportrait/local_configs/__base__/models/fcn_resnet50.py ADDED Viewed

	@@ -0,0 +1,45 @@

+# model settings
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained='open-mmlab://resnet50_v1c',
+    backbone=dict(
+        type='ResNetV1c',
+        depth=50,
+        num_stages=4,
+        out_indices=(0, 1, 2, 3),
+        dilations=(1, 1, 2, 4),
+        strides=(1, 2, 1, 1),
+        norm_cfg=norm_cfg,
+        norm_eval=False,
+        style='pytorch',
+        contract_dilation=True),
+    decode_head=dict(
+        type='FCNHead',
+        in_channels=2048,
+        in_index=3,
+        channels=512,
+        num_convs=2,
+        concat_input=True,
+        dropout_ratio=0.1,
+        num_classes=19,
+        norm_cfg=norm_cfg,
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    auxiliary_head=dict(
+        type='FCNHead',
+        in_channels=1024,
+        in_index=2,
+        channels=256,
+        num_convs=1,
+        concat_input=False,
+        dropout_ratio=0.1,
+        num_classes=19,
+        norm_cfg=norm_cfg,
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+    # model training and testing settings
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))

data_utils/easyportrait/local_configs/__base__/models/fpn_resnet50.py ADDED Viewed

	@@ -0,0 +1,36 @@

+# model settings
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained='open-mmlab://resnet50_v1c',
+    backbone=dict(
+        type='ResNetV1c',
+        depth=50,
+        num_stages=4,
+        out_indices=(0, 1, 2, 3),
+        dilations=(1, 1, 1, 1),
+        strides=(1, 2, 2, 2),
+        norm_cfg=norm_cfg,
+        norm_eval=False,
+        style='pytorch',
+        contract_dilation=True),
+    neck=dict(
+        type='FPN',
+        in_channels=[256, 512, 1024, 2048],
+        out_channels=256,
+        num_outs=4),
+    decode_head=dict(
+        type='FPNHead',
+        in_channels=[256, 256, 256, 256],
+        in_index=[0, 1, 2, 3],
+        feature_strides=[4, 8, 16, 32],
+        channels=128,
+        dropout_ratio=0.1,
+        num_classes=19,
+        norm_cfg=norm_cfg,
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    # model training and testing settings
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))

data_utils/easyportrait/local_configs/__base__/models/lraspp.py ADDED Viewed

	@@ -0,0 +1,25 @@

+# model settings
+norm_cfg = dict(type='SyncBN', eps=0.001, requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    backbone=dict(
+        type='MobileNetV3',
+        arch='large',
+        out_indices=(1, 3, 16),
+        norm_cfg=norm_cfg),
+    decode_head=dict(
+        type='LRASPPHead',
+        in_channels=(16, 24, 960),
+        in_index=(0, 1, 2),
+        channels=128,
+        input_transform='multiple_select',
+        dropout_ratio=0.1,
+        num_classes=19,
+        norm_cfg=norm_cfg,
+        act_cfg=dict(type='ReLU'),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    # model training and testing settings
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))

data_utils/easyportrait/local_configs/__base__/models/segformer.py ADDED Viewed

	@@ -0,0 +1,34 @@

+# model settings
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained=None,
+    backbone=dict(
+        type='MixVisionTransformer',
+        in_channels=3,
+        embed_dims=32,
+        num_stages=4,
+        num_layers=[2, 2, 2, 2],
+        num_heads=[1, 2, 5, 8],
+        patch_sizes=[7, 3, 3, 3],
+        sr_ratios=[8, 4, 2, 1],
+        out_indices=(0, 1, 2, 3),
+        mlp_ratio=4,
+        qkv_bias=True,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        drop_path_rate=0.1),
+    decode_head=dict(
+        type='SegformerHead',
+        in_channels=[32, 64, 160, 256],
+        in_index=[0, 1, 2, 3],
+        channels=256,
+        dropout_ratio=0.1,
+        num_classes=19,
+        norm_cfg=norm_cfg,
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    # model training and testing settings
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))

data_utils/easyportrait/local_configs/__base__/schedules/schedule_10k_adamw.py ADDED Viewed

	@@ -0,0 +1,11 @@

+# optimizer
+optimizer = dict(type='AdamW', lr=0.0002, weight_decay=0.0001)
+optimizer_config = dict()
+# learning policy
+lr_config = dict(policy='poly', power=0.9, min_lr=0.0, by_epoch=False)
+# runtime settings
+runner = dict(type='IterBasedRunner', max_iters=10000)
+checkpoint_config = dict(by_epoch=False, interval=2000)
+evaluation = dict(interval=2000, metric='mIoU')

data_utils/easyportrait/local_configs/__base__/schedules/schedule_160k_adamw.py ADDED Viewed

	@@ -0,0 +1,9 @@

+# optimizer
+optimizer = dict(type='AdamW', lr=0.0002, weight_decay=0.0001)
+optimizer_config = dict()
+# learning policy
+lr_config = dict(policy='poly', power=0.9, min_lr=0.0, by_epoch=False)
+# runtime settings
+runner = dict(type='IterBasedRunner', max_iters=160000)
+checkpoint_config = dict(by_epoch=False, interval=4000)
+evaluation = dict(interval=4000, metric='mIoU')

data_utils/easyportrait/local_configs/__base__/schedules/schedule_20k_adamw.py ADDED Viewed

	@@ -0,0 +1,11 @@

+# optimizer
+optimizer = dict(type='AdamW', lr=0.0002, weight_decay=0.0001)
+optimizer_config = dict()
+# learning policy
+lr_config = dict(policy='poly', power=0.9, min_lr=0.0, by_epoch=False)
+# runtime settings
+runner = dict(type='IterBasedRunner', max_iters=20000)
+checkpoint_config = dict(by_epoch=False, interval=2000)
+evaluation = dict(interval=2000, metric='mIoU')

data_utils/easyportrait/local_configs/__base__/schedules/schedule_40k_adamw.py ADDED Viewed

	@@ -0,0 +1,9 @@

+# optimizer
+optimizer = dict(type='AdamW', lr=0.0002, weight_decay=0.0001)
+optimizer_config = dict()
+# learning policy
+lr_config = dict(policy='poly', power=0.9, min_lr=0.0, by_epoch=False)
+# runtime settings
+runner = dict(type='IterBasedRunner', max_iters=40000)
+checkpoint_config = dict(by_epoch=False, interval=4000)
+evaluation = dict(interval=4000, metric='mIoU')

data_utils/easyportrait/local_configs/__base__/schedules/schedule_80k_adamw.py ADDED Viewed

	@@ -0,0 +1,9 @@

+# optimizer
+optimizer = dict(type='AdamW', lr=0.0002, weight_decay=0.0001)
+optimizer_config = dict()
+# learning policy
+lr_config = dict(policy='poly', power=0.9, min_lr=0.0, by_epoch=False)
+# runtime settings
+runner = dict(type='IterBasedRunner', max_iters=80000)
+checkpoint_config = dict(by_epoch=False, interval=4000)
+evaluation = dict(interval=4000, metric='mIoU')

data_utils/easyportrait/local_configs/easyportrait_experiments_v2/bisenet-fp/bisenetv2-fp.py ADDED Viewed

	@@ -0,0 +1,221 @@

+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained=None,
+    backbone=dict(
+        type='BiSeNetV2',
+        detail_channels=(64, 64, 128),
+        semantic_channels=(16, 32, 64, 128),
+        semantic_expansion_ratio=6,
+        bga_channels=128,
+        out_indices=(0, 1, 2, 3, 4),
+        init_cfg=None,
+        align_corners=False),
+    decode_head=dict(
+        type='FCNHead',
+        in_channels=128,
+        in_index=0,
+        channels=1024,
+        num_convs=1,
+        concat_input=False,
+        dropout_ratio=0.1,
+        num_classes=19,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),
+        sampler=dict(type='OHEMPixelSampler', thresh=0.7, min_kept=10000)),
+    auxiliary_head=[
+        dict(
+            type='FCNHead',
+            in_channels=16,
+            channels=16,
+            num_convs=2,
+            num_classes=8,
+            in_index=1,
+            norm_cfg=dict(type='SyncBN', requires_grad=True),
+            concat_input=False,
+            align_corners=False,
+            sampler=dict(type='OHEMPixelSampler', thresh=0.7, min_kept=10000),
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+        dict(
+            type='FCNHead',
+            in_channels=32,
+            channels=64,
+            num_convs=2,
+            num_classes=8,
+            in_index=2,
+            norm_cfg=dict(type='SyncBN', requires_grad=True),
+            concat_input=False,
+            align_corners=False,
+            sampler=dict(type='OHEMPixelSampler', thresh=0.7, min_kept=10000),
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+        dict(
+            type='FCNHead',
+            in_channels=64,
+            channels=256,
+            num_convs=2,
+            num_classes=8,
+            in_index=3,
+            norm_cfg=dict(type='SyncBN', requires_grad=True),
+            concat_input=False,
+            align_corners=False,
+            sampler=dict(type='OHEMPixelSampler', thresh=0.7, min_kept=10000),
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+        dict(
+            type='FCNHead',
+            in_channels=128,
+            channels=1024,
+            num_convs=2,
+            num_classes=8,
+            in_index=4,
+            norm_cfg=dict(type='SyncBN', requires_grad=True),
+            concat_input=False,
+            align_corners=False,
+            sampler=dict(type='OHEMPixelSampler', thresh=0.7, min_kept=10000),
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0))
+    ],
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'EasyPortraitFPDataset'
+data_root = '/home/jovyan/datasets/wacv_24/'
+img_norm_cfg = dict(
+    mean=[143.55267075, 132.96705975, 126.94924335],
+    std=[60.2625333, 60.32740275, 59.30988645],
+    to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='RandomFlip', prob=0.0),
+    dict(
+        type='PhotoMetricDistortion',
+        brightness_delta=16,
+        contrast_range=(0.5, 1.0),
+        saturation_range=(0.5, 1.0),
+        hue_delta=5),
+    dict(
+        type='Normalize',
+        mean=[143.55267075, 132.96705975, 126.94924335],
+        std=[60.2625333, 60.32740275, 59.30988645],
+        to_rgb=True),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(384, 384),
+        flip=False,
+        transforms=[
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    train=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/train',
+        ann_dir='easyportrait_384/annotations_fp/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations'),
+            dict(type='RandomFlip', prob=0.0),
+            dict(
+                type='PhotoMetricDistortion',
+                brightness_delta=16,
+                contrast_range=(0.5, 1.0),
+                saturation_range=(0.5, 1.0),
+                hue_delta=5),
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/val',
+        ann_dir='easyportrait_384/annotations_fp/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/test',
+        ann_dir='easyportrait_384/annotations_fp/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    samples_per_gpu=32,
+    workers_per_gpu=8)
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(type='AdamW', lr=0.05, weight_decay=0.0001)
+optimizer_config = dict()
+lr_config = dict(
+    policy='poly',
+    power=0.9,
+    min_lr=0.0,
+    by_epoch=True,
+    warmup='linear',
+    warmup_iters=1000)
+default_hooks = dict(stop=dict(type='EarlyStoppingHook', monitor='mIoU'))
+runner = dict(type='EpochBasedRunner', max_epochs=100)
+checkpoint_config = dict(by_epoch=True, interval=100)
+evaluation = dict(interval=1, metric='mIoU', save_best='mIoU')
+work_dir = 'work_dirs/petrova/bisenet-fp'
+gpu_ids = [0]
+auto_resume = False

data_utils/easyportrait/local_configs/easyportrait_experiments_v2/bisenet-ps/bisenetv2-ps.py ADDED Viewed

	@@ -0,0 +1,218 @@

+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained=None,
+    backbone=dict(
+        type='BiSeNetV2',
+        detail_channels=(64, 64, 128),
+        semantic_channels=(16, 32, 64, 128),
+        semantic_expansion_ratio=6,
+        bga_channels=128,
+        out_indices=(0, 1, 2, 3, 4),
+        init_cfg=None,
+        align_corners=False),
+    decode_head=dict(
+        type='FCNHead',
+        in_channels=128,
+        in_index=0,
+        channels=1024,
+        num_convs=1,
+        concat_input=False,
+        dropout_ratio=0.1,
+        num_classes=19,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),
+        sampler=dict(type='OHEMPixelSampler', thresh=0.7, min_kept=10000)),
+    auxiliary_head=[
+        dict(
+            type='FCNHead',
+            in_channels=16,
+            channels=16,
+            num_convs=2,
+            num_classes=2,
+            in_index=1,
+            norm_cfg=dict(type='SyncBN', requires_grad=True),
+            concat_input=False,
+            align_corners=False,
+            sampler=dict(type='OHEMPixelSampler', thresh=0.7, min_kept=10000),
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+        dict(
+            type='FCNHead',
+            in_channels=32,
+            channels=64,
+            num_convs=2,
+            num_classes=2,
+            in_index=2,
+            norm_cfg=dict(type='SyncBN', requires_grad=True),
+            concat_input=False,
+            align_corners=False,
+            sampler=dict(type='OHEMPixelSampler', thresh=0.7, min_kept=10000),
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+        dict(
+            type='FCNHead',
+            in_channels=64,
+            channels=256,
+            num_convs=2,
+            num_classes=2,
+            in_index=3,
+            norm_cfg=dict(type='SyncBN', requires_grad=True),
+            concat_input=False,
+            align_corners=False,
+            sampler=dict(type='OHEMPixelSampler', thresh=0.7, min_kept=10000),
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+        dict(
+            type='FCNHead',
+            in_channels=128,
+            channels=1024,
+            num_convs=2,
+            num_classes=2,
+            in_index=4,
+            norm_cfg=dict(type='SyncBN', requires_grad=True),
+            concat_input=False,
+            align_corners=False,
+            sampler=dict(type='OHEMPixelSampler', thresh=0.7, min_kept=10000),
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0))
+    ],
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'EasyPortraitPSDataset'
+data_root = '/home/jovyan/datasets/wacv_24/'
+img_norm_cfg = dict(
+    mean=[143.55267075, 132.96705975, 126.94924335],
+    std=[60.2625333, 60.32740275, 59.30988645],
+    to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='RandomFlip', prob=0.0),
+    dict(
+        type='PhotoMetricDistortion',
+        brightness_delta=16,
+        contrast_range=(0.5, 1.0),
+        saturation_range=(0.5, 1.0),
+        hue_delta=5),
+    dict(
+        type='Normalize',
+        mean=[143.55267075, 132.96705975, 126.94924335],
+        std=[60.2625333, 60.32740275, 59.30988645],
+        to_rgb=True),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(384, 384),
+        flip=False,
+        transforms=[
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    train=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/train',
+        ann_dir='easyportrait_384/annotations_ps/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations'),
+            dict(type='RandomFlip', prob=0.0),
+            dict(
+                type='PhotoMetricDistortion',
+                brightness_delta=16,
+                contrast_range=(0.5, 1.0),
+                saturation_range=(0.5, 1.0),
+                hue_delta=5),
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/val',
+        ann_dir='easyportrait_384/annotations_ps/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/test',
+        ann_dir='easyportrait_384/annotations_ps/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    samples_per_gpu=32,
+    workers_per_gpu=8)
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(type='AdamW', lr=0.05, weight_decay=0.0001)
+optimizer_config = dict()
+lr_config = dict(
+    policy='poly',
+    power=0.9,
+    min_lr=0.0,
+    by_epoch=True,
+    warmup='linear',
+    warmup_iters=1000)
+default_hooks = dict(stop=dict(type='EarlyStoppingHook', monitor='mIoU'))
+runner = dict(type='EpochBasedRunner', max_epochs=100)
+checkpoint_config = dict(by_epoch=True, interval=100)
+evaluation = dict(interval=1, metric='mIoU', save_best='mIoU')
+work_dir = 'work_dirs/petrova/bisenet-ps/'
+gpu_ids = [0]
+auto_resume = False

data_utils/easyportrait/local_configs/easyportrait_experiments_v2/danet-fp/danet-fp.py ADDED Viewed

	@@ -0,0 +1,174 @@

+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained='open-mmlab://resnet50_v1c',
+    backbone=dict(
+        type='ResNetV1c',
+        depth=50,
+        num_stages=4,
+        out_indices=(0, 1, 2, 3),
+        dilations=(1, 1, 2, 4),
+        strides=(1, 2, 1, 1),
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        norm_eval=False,
+        style='pytorch',
+        contract_dilation=True),
+    decode_head=dict(
+        type='DAHead',
+        in_channels=2048,
+        in_index=3,
+        channels=512,
+        pam_channels=64,
+        dropout_ratio=0.1,
+        num_classes=8,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    auxiliary_head=dict(
+        type='FCNHead',
+        in_channels=1024,
+        in_index=2,
+        channels=256,
+        num_convs=1,
+        concat_input=False,
+        dropout_ratio=0.1,
+        num_classes=8,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'EasyPortraitFPDataset'
+data_root = '/home/jovyan/datasets/wacv_24/'
+img_norm_cfg = dict(
+    mean=[143.55267075, 132.96705975, 126.94924335],
+    std=[60.2625333, 60.32740275, 59.30988645],
+    to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='RandomFlip', prob=0.0),
+    dict(
+        type='PhotoMetricDistortion',
+        brightness_delta=16,
+        contrast_range=(0.5, 1.0),
+        saturation_range=(0.5, 1.0),
+        hue_delta=5),
+    dict(
+        type='Normalize',
+        mean=[143.55267075, 132.96705975, 126.94924335],
+        std=[60.2625333, 60.32740275, 59.30988645],
+        to_rgb=True),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(384, 384),
+        flip=False,
+        transforms=[
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    train=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/train',
+        ann_dir='easyportrait_384/annotations_fp/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations'),
+            dict(type='RandomFlip', prob=0.0),
+            dict(
+                type='PhotoMetricDistortion',
+                brightness_delta=16,
+                contrast_range=(0.5, 1.0),
+                saturation_range=(0.5, 1.0),
+                hue_delta=5),
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/val',
+        ann_dir='easyportrait_384/annotations_fp/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/test',
+        ann_dir='easyportrait_384/annotations_fp/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    samples_per_gpu=32,
+    workers_per_gpu=8)
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(type='AdamW', lr=0.0002, weight_decay=0.0001)
+optimizer_config = dict()
+lr_config = dict(policy='poly', power=0.9, min_lr=0.0, by_epoch=True)
+default_hooks = dict(stop=dict(type='EarlyStoppingHook', monitor='mIoU'))
+runner = dict(type='EpochBasedRunner', max_epochs=100)
+checkpoint_config = dict(by_epoch=True, interval=100)
+evaluation = dict(interval=1, metric='mIoU', save_best='mIoU')
+work_dir = 'work_dirs/petrova/danet-fp'
+gpu_ids = [0]
+auto_resume = False

data_utils/easyportrait/local_configs/easyportrait_experiments_v2/danet-ps/danet-ps.py ADDED Viewed

	@@ -0,0 +1,171 @@

+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained='open-mmlab://resnet50_v1c',
+    backbone=dict(
+        type='ResNetV1c',
+        depth=50,
+        num_stages=4,
+        out_indices=(0, 1, 2, 3),
+        dilations=(1, 1, 2, 4),
+        strides=(1, 2, 1, 1),
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        norm_eval=False,
+        style='pytorch',
+        contract_dilation=True),
+    decode_head=dict(
+        type='DAHead',
+        in_channels=2048,
+        in_index=3,
+        channels=512,
+        pam_channels=64,
+        dropout_ratio=0.1,
+        num_classes=2,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    auxiliary_head=dict(
+        type='FCNHead',
+        in_channels=1024,
+        in_index=2,
+        channels=256,
+        num_convs=1,
+        concat_input=False,
+        dropout_ratio=0.1,
+        num_classes=2,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'EasyPortraitPSDataset'
+data_root = '/home/jovyan/datasets/wacv_24/'
+img_norm_cfg = dict(
+    mean=[143.55267075, 132.96705975, 126.94924335],
+    std=[60.2625333, 60.32740275, 59.30988645],
+    to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='RandomFlip', prob=0.0),
+    dict(
+        type='PhotoMetricDistortion',
+        brightness_delta=16,
+        contrast_range=(0.5, 1.0),
+        saturation_range=(0.5, 1.0),
+        hue_delta=5),
+    dict(
+        type='Normalize',
+        mean=[143.55267075, 132.96705975, 126.94924335],
+        std=[60.2625333, 60.32740275, 59.30988645],
+        to_rgb=True),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(384, 384),
+        flip=False,
+        transforms=[
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    train=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/train',
+        ann_dir='easyportrait_384/annotations_ps/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations'),
+            dict(type='RandomFlip', prob=0.0),
+            dict(
+                type='PhotoMetricDistortion',
+                brightness_delta=16,
+                contrast_range=(0.5, 1.0),
+                saturation_range=(0.5, 1.0),
+                hue_delta=5),
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/val',
+        ann_dir='easyportrait_384/annotations_ps/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/test',
+        ann_dir='easyportrait_384/annotations_ps/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    samples_per_gpu=32,
+    workers_per_gpu=8)
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(type='AdamW', lr=0.0002, weight_decay=0.0001)
+optimizer_config = dict()
+lr_config = dict(policy='poly', power=0.9, min_lr=0.0, by_epoch=True)
+default_hooks = dict(stop=dict(type='EarlyStoppingHook', monitor='mIoU'))
+runner = dict(type='EpochBasedRunner', max_epochs=100)
+checkpoint_config = dict(by_epoch=True, interval=100)
+evaluation = dict(interval=1, metric='mIoU', save_best='mIoU')
+work_dir = 'work_dirs/petrova/danet-ps'
+gpu_ids = [0]
+auto_resume = False

data_utils/easyportrait/local_configs/easyportrait_experiments_v2/deeplab-fp/deeplabv3-fp.py ADDED Viewed

	@@ -0,0 +1,174 @@

+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained='open-mmlab://resnet50_v1c',
+    backbone=dict(
+        type='ResNetV1c',
+        depth=50,
+        num_stages=4,
+        out_indices=(0, 1, 2, 3),
+        dilations=(1, 1, 2, 4),
+        strides=(1, 2, 1, 1),
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        norm_eval=False,
+        style='pytorch',
+        contract_dilation=True),
+    decode_head=dict(
+        type='ASPPHead',
+        in_channels=2048,
+        in_index=3,
+        channels=512,
+        dilations=(1, 12, 24, 36),
+        dropout_ratio=0.1,
+        num_classes=8,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    auxiliary_head=dict(
+        type='FCNHead',
+        in_channels=1024,
+        in_index=2,
+        channels=256,
+        num_convs=1,
+        concat_input=False,
+        dropout_ratio=0.1,
+        num_classes=8,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'EasyPortraitFPDataset'
+data_root = '/home/jovyan/datasets/wacv_24/'
+img_norm_cfg = dict(
+    mean=[143.55267075, 132.96705975, 126.94924335],
+    std=[60.2625333, 60.32740275, 59.30988645],
+    to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='RandomFlip', prob=0.0),
+    dict(
+        type='PhotoMetricDistortion',
+        brightness_delta=16,
+        contrast_range=(0.5, 1.0),
+        saturation_range=(0.5, 1.0),
+        hue_delta=5),
+    dict(
+        type='Normalize',
+        mean=[143.55267075, 132.96705975, 126.94924335],
+        std=[60.2625333, 60.32740275, 59.30988645],
+        to_rgb=True),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(384, 384),
+        flip=False,
+        transforms=[
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    train=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/train',
+        ann_dir='easyportrait_384/annotations_fp/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations'),
+            dict(type='RandomFlip', prob=0.0),
+            dict(
+                type='PhotoMetricDistortion',
+                brightness_delta=16,
+                contrast_range=(0.5, 1.0),
+                saturation_range=(0.5, 1.0),
+                hue_delta=5),
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/val',
+        ann_dir='easyportrait_384/annotations_fp/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/test',
+        ann_dir='easyportrait_384/annotations_fp/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    samples_per_gpu=32,
+    workers_per_gpu=8)
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(type='AdamW', lr=0.0002, weight_decay=0.0001)
+optimizer_config = dict()
+lr_config = dict(policy='poly', power=0.9, min_lr=0.0, by_epoch=True)
+default_hooks = dict(stop=dict(type='EarlyStoppingHook', monitor='mIoU'))
+runner = dict(type='EpochBasedRunner', max_epochs=100)
+checkpoint_config = dict(by_epoch=True, interval=100)
+evaluation = dict(interval=1, metric='mIoU', save_best='mIoU')
+work_dir = 'work_dirs/petrova/deeplabv3-fp'
+gpu_ids = [0]
+auto_resume = False

data_utils/easyportrait/local_configs/easyportrait_experiments_v2/deeplab-ps/deeplabv3-ps.py ADDED Viewed

	@@ -0,0 +1,171 @@

+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained='open-mmlab://resnet50_v1c',
+    backbone=dict(
+        type='ResNetV1c',
+        depth=50,
+        num_stages=4,
+        out_indices=(0, 1, 2, 3),
+        dilations=(1, 1, 2, 4),
+        strides=(1, 2, 1, 1),
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        norm_eval=False,
+        style='pytorch',
+        contract_dilation=True),
+    decode_head=dict(
+        type='ASPPHead',
+        in_channels=2048,
+        in_index=3,
+        channels=512,
+        dilations=(1, 12, 24, 36),
+        dropout_ratio=0.1,
+        num_classes=2,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    auxiliary_head=dict(
+        type='FCNHead',
+        in_channels=1024,
+        in_index=2,
+        channels=256,
+        num_convs=1,
+        concat_input=False,
+        dropout_ratio=0.1,
+        num_classes=2,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'EasyPortraitPSDataset'
+data_root = '/home/jovyan/datasets/wacv_24/'
+img_norm_cfg = dict(
+    mean=[143.55267075, 132.96705975, 126.94924335],
+    std=[60.2625333, 60.32740275, 59.30988645],
+    to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='RandomFlip', prob=0.0),
+    dict(
+        type='PhotoMetricDistortion',
+        brightness_delta=16,
+        contrast_range=(0.5, 1.0),
+        saturation_range=(0.5, 1.0),
+        hue_delta=5),
+    dict(
+        type='Normalize',
+        mean=[143.55267075, 132.96705975, 126.94924335],
+        std=[60.2625333, 60.32740275, 59.30988645],
+        to_rgb=True),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(384, 384),
+        flip=False,
+        transforms=[
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    train=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/train',
+        ann_dir='easyportrait_384/annotations_ps/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations'),
+            dict(type='RandomFlip', prob=0.0),
+            dict(
+                type='PhotoMetricDistortion',
+                brightness_delta=16,
+                contrast_range=(0.5, 1.0),
+                saturation_range=(0.5, 1.0),
+                hue_delta=5),
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/val',
+        ann_dir='easyportrait_384/annotations_ps/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/test',
+        ann_dir='easyportrait_384/annotations_ps/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    samples_per_gpu=32,
+    workers_per_gpu=8)
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(type='AdamW', lr=0.0002, weight_decay=0.0001)
+optimizer_config = dict()
+lr_config = dict(policy='poly', power=0.9, min_lr=0.0, by_epoch=True)
+default_hooks = dict(stop=dict(type='EarlyStoppingHook', monitor='mIoU'))
+runner = dict(type='EpochBasedRunner', max_epochs=100)
+checkpoint_config = dict(by_epoch=True, interval=100)
+evaluation = dict(interval=1, metric='mIoU', save_best='mIoU')
+work_dir = 'work_dirs/petrova/deeplabv3-ps'
+gpu_ids = [0]
+auto_resume = False

data_utils/easyportrait/local_configs/easyportrait_experiments_v2/fastscnn-fp/fastscnn-fp.py ADDED Viewed

	@@ -0,0 +1,165 @@

+norm_cfg = dict(type='SyncBN', requires_grad=True, momentum=0.01)
+model = dict(
+    type='EncoderDecoder',
+    backbone=dict(
+        type='FastSCNN',
+        downsample_dw_channels=(32, 48),
+        global_in_channels=64,
+        global_block_channels=(64, 96, 128),
+        global_block_strides=(2, 2, 1),
+        global_out_channels=128,
+        higher_in_channels=64,
+        lower_in_channels=128,
+        fusion_out_channels=128,
+        out_indices=(0, 1, 2),
+        norm_cfg=dict(type='SyncBN', requires_grad=True, momentum=0.01),
+        align_corners=False),
+    decode_head=dict(
+        type='DepthwiseSeparableFCNHead',
+        in_channels=128,
+        channels=128,
+        concat_input=False,
+        num_classes=8,
+        in_index=-1,
+        norm_cfg=dict(type='SyncBN', requires_grad=True, momentum=0.01),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1)),
+    auxiliary_head=[
+        dict(type='FCNHead', in_channels=128, channels=32, num_classes=8),
+        dict(type='FCNHead', in_channels=128, channels=32, num_classes=8)
+    ],
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'EasyPortraitFPDataset'
+data_root = '/home/jovyan/datasets/wacv_24/'
+img_norm_cfg = dict(
+    mean=[143.55267075, 132.96705975, 126.94924335],
+    std=[60.2625333, 60.32740275, 59.30988645],
+    to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='RandomFlip', prob=0.0),
+    dict(
+        type='PhotoMetricDistortion',
+        brightness_delta=16,
+        contrast_range=(0.5, 1.0),
+        saturation_range=(0.5, 1.0),
+        hue_delta=5),
+    dict(
+        type='Normalize',
+        mean=[143.55267075, 132.96705975, 126.94924335],
+        std=[60.2625333, 60.32740275, 59.30988645],
+        to_rgb=True),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(384, 384),
+        flip=False,
+        transforms=[
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    train=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/train',
+        ann_dir='easyportrait_384/annotations_fp/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations'),
+            dict(type='RandomFlip', prob=0.0),
+            dict(
+                type='PhotoMetricDistortion',
+                brightness_delta=16,
+                contrast_range=(0.5, 1.0),
+                saturation_range=(0.5, 1.0),
+                hue_delta=5),
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/val',
+        ann_dir='easyportrait_384/annotations_fp/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/test',
+        ann_dir='easyportrait_384/annotations_fp/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    samples_per_gpu=32,
+    workers_per_gpu=8)
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(type='SGD', lr=0.12, weight_decay=4e-05, momentum=0.9)
+optimizer_config = dict()
+lr_config = dict(policy='poly', power=0.9, min_lr=0.0, by_epoch=True)
+default_hooks = dict(stop=dict(type='EarlyStoppingHook', monitor='mIoU'))
+runner = dict(type='EpochBasedRunner', max_epochs=100)
+checkpoint_config = dict(by_epoch=True, interval=100)
+evaluation = dict(interval=1, metric='mIoU', save_best='mIoU')
+work_dir = 'work_dirs/petrova/fast_scnn-fp'
+gpu_ids = [0]
+auto_resume = False

data_utils/easyportrait/local_configs/easyportrait_experiments_v2/fastscnn-ps/fastscnn-ps.py ADDED Viewed

	@@ -0,0 +1,162 @@

+norm_cfg = dict(type='SyncBN', requires_grad=True, momentum=0.01)
+model = dict(
+    type='EncoderDecoder',
+    backbone=dict(
+        type='FastSCNN',
+        downsample_dw_channels=(32, 48),
+        global_in_channels=64,
+        global_block_channels=(64, 96, 128),
+        global_block_strides=(2, 2, 1),
+        global_out_channels=128,
+        higher_in_channels=64,
+        lower_in_channels=128,
+        fusion_out_channels=128,
+        out_indices=(0, 1, 2),
+        norm_cfg=dict(type='SyncBN', requires_grad=True, momentum=0.01),
+        align_corners=False),
+    decode_head=dict(
+        type='DepthwiseSeparableFCNHead',
+        in_channels=128,
+        channels=128,
+        concat_input=False,
+        num_classes=2,
+        in_index=-1,
+        norm_cfg=dict(type='SyncBN', requires_grad=True, momentum=0.01),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1)),
+    auxiliary_head=[
+        dict(type='FCNHead', in_channels=128, channels=32, num_classes=2),
+        dict(type='FCNHead', in_channels=128, channels=32, num_classes=2)
+    ],
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'EasyPortraitPSDataset'
+data_root = '/home/jovyan/datasets/wacv_24/'
+img_norm_cfg = dict(
+    mean=[143.55267075, 132.96705975, 126.94924335],
+    std=[60.2625333, 60.32740275, 59.30988645],
+    to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='RandomFlip', prob=0.0),
+    dict(
+        type='PhotoMetricDistortion',
+        brightness_delta=16,
+        contrast_range=(0.5, 1.0),
+        saturation_range=(0.5, 1.0),
+        hue_delta=5),
+    dict(
+        type='Normalize',
+        mean=[143.55267075, 132.96705975, 126.94924335],
+        std=[60.2625333, 60.32740275, 59.30988645],
+        to_rgb=True),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(384, 384),
+        flip=False,
+        transforms=[
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    train=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/train',
+        ann_dir='easyportrait_384/annotations_ps/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations'),
+            dict(type='RandomFlip', prob=0.0),
+            dict(
+                type='PhotoMetricDistortion',
+                brightness_delta=16,
+                contrast_range=(0.5, 1.0),
+                saturation_range=(0.5, 1.0),
+                hue_delta=5),
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/val',
+        ann_dir='easyportrait_384/annotations_ps/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/test',
+        ann_dir='easyportrait_384/annotations_ps/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    samples_per_gpu=32,
+    workers_per_gpu=8)
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(type='SGD', lr=0.12, weight_decay=4e-05, momentum=0.9)
+optimizer_config = dict()
+lr_config = dict(policy='poly', power=0.9, min_lr=0.0, by_epoch=True)
+default_hooks = dict(stop=dict(type='EarlyStoppingHook', monitor='mIoU'))
+runner = dict(type='EpochBasedRunner', max_epochs=100)
+checkpoint_config = dict(by_epoch=True, interval=100)
+evaluation = dict(interval=1, metric='mIoU', save_best='mIoU')
+work_dir = 'work_dirs/petrova/fast_scnn-ps'
+gpu_ids = [0]
+auto_resume = False

data_utils/easyportrait/local_configs/easyportrait_experiments_v2/fcn-fp/fcn-fp.py ADDED Viewed

	@@ -0,0 +1,187 @@

+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained='mmcls://mobilenet_v2',
+    backbone=dict(
+        type='MobileNetV2',
+        widen_factor=1.0,
+        strides=(1, 2, 2, 1, 1, 1, 1),
+        dilations=(1, 1, 1, 2, 2, 4, 4),
+        out_indices=(1, 2, 4, 6),
+        norm_cfg=dict(type='SyncBN', requires_grad=True)),
+    decode_head=dict(
+        type='FCNHead',
+        in_channels=320,
+        in_index=3,
+        channels=512,
+        num_convs=2,
+        concat_input=True,
+        dropout_ratio=0.1,
+        num_classes=8,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    auxiliary_head=dict(
+        type='FCNHead',
+        in_channels=96,
+        in_index=2,
+        channels=256,
+        num_convs=1,
+        concat_input=False,
+        dropout_ratio=0.1,
+        num_classes=8,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'EasyPortraitFPDataset'
+data_root = '/home/jovyan/datasets/wacv_24/'
+img_norm_cfg = dict(
+    mean=[143.55267075, 132.96705975, 126.94924335],
+    std=[60.2625333, 60.32740275, 59.30988645],
+    to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='RandomFlip', prob=0.0),
+    dict(
+        type='PhotoMetricDistortion',
+        brightness_delta=16,
+        contrast_range=(0.5, 1.0),
+        saturation_range=(0.5, 1.0),
+        hue_delta=5),
+    dict(
+        type='Normalize',
+        mean=[143.55267075, 132.96705975, 126.94924335],
+        std=[60.2625333, 60.32740275, 59.30988645],
+        to_rgb=True),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(384, 384),
+        flip=False,
+        transforms=[
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    train=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/train',
+        ann_dir='easyportrait_384/annotations_fp/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations'),
+            dict(type='RandomFlip', prob=0.0),
+            dict(
+                type='PhotoMetricDistortion',
+                brightness_delta=16,
+                contrast_range=(0.5, 1.0),
+                saturation_range=(0.5, 1.0),
+                hue_delta=5),
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/val',
+        ann_dir='easyportrait_384/annotations_fp/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/test',
+        ann_dir='easyportrait_384/annotations_fp/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    samples_per_gpu=32,
+    workers_per_gpu=8)
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(
+    type='AdamW',
+    lr=6e-05,
+    betas=(0.9, 0.999),
+    weight_decay=0.01,
+    paramwise_cfg=dict(
+        custom_keys=dict(
+            pos_block=dict(decay_mult=0.0),
+            norm=dict(decay_mult=0.0),
+            head=dict(lr_mult=10.0))))
+optimizer_config = dict()
+lr_config = dict(
+    policy='poly',
+    warmup='linear',
+    warmup_iters=1500,
+    warmup_ratio=1e-06,
+    power=1.0,
+    min_lr=0.0,
+    by_epoch=False)
+default_hooks = dict(stop=dict(type='EarlyStoppingHook', monitor='mIoU'))
+runner = dict(type='EpochBasedRunner', max_epochs=100)
+checkpoint_config = dict(by_epoch=True, interval=100)
+evaluation = dict(interval=1, metric='mIoU', save_best='mIoU')
+work_dir = 'work_dirs/petrova/fcn-fp'
+gpu_ids = [0]
+auto_resume = False

data_utils/easyportrait/local_configs/easyportrait_experiments_v2/fcn-ps/fcn-ps.py ADDED Viewed

	@@ -0,0 +1,184 @@

+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained='mmcls://mobilenet_v2',
+    backbone=dict(
+        type='MobileNetV2',
+        widen_factor=1.0,
+        strides=(1, 2, 2, 1, 1, 1, 1),
+        dilations=(1, 1, 1, 2, 2, 4, 4),
+        out_indices=(1, 2, 4, 6),
+        norm_cfg=dict(type='SyncBN', requires_grad=True)),
+    decode_head=dict(
+        type='FCNHead',
+        in_channels=320,
+        in_index=3,
+        channels=512,
+        num_convs=2,
+        concat_input=True,
+        dropout_ratio=0.1,
+        num_classes=2,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    auxiliary_head=dict(
+        type='FCNHead',
+        in_channels=96,
+        in_index=2,
+        channels=256,
+        num_convs=1,
+        concat_input=False,
+        dropout_ratio=0.1,
+        num_classes=2,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'EasyPortraitPSDataset'
+data_root = '/home/jovyan/datasets/wacv_24/'
+img_norm_cfg = dict(
+    mean=[143.55267075, 132.96705975, 126.94924335],
+    std=[60.2625333, 60.32740275, 59.30988645],
+    to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='RandomFlip', prob=0.0),
+    dict(
+        type='PhotoMetricDistortion',
+        brightness_delta=16,
+        contrast_range=(0.5, 1.0),
+        saturation_range=(0.5, 1.0),
+        hue_delta=5),
+    dict(
+        type='Normalize',
+        mean=[143.55267075, 132.96705975, 126.94924335],
+        std=[60.2625333, 60.32740275, 59.30988645],
+        to_rgb=True),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(384, 384),
+        flip=False,
+        transforms=[
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    train=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/train',
+        ann_dir='easyportrait_384/annotations_ps/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations'),
+            dict(type='RandomFlip', prob=0.0),
+            dict(
+                type='PhotoMetricDistortion',
+                brightness_delta=16,
+                contrast_range=(0.5, 1.0),
+                saturation_range=(0.5, 1.0),
+                hue_delta=5),
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/val',
+        ann_dir='easyportrait_384/annotations_ps/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/test',
+        ann_dir='easyportrait_384/annotations_ps/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    samples_per_gpu=32,
+    workers_per_gpu=8)
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(
+    type='AdamW',
+    lr=6e-05,
+    betas=(0.9, 0.999),
+    weight_decay=0.01,
+    paramwise_cfg=dict(
+        custom_keys=dict(
+            pos_block=dict(decay_mult=0.0),
+            norm=dict(decay_mult=0.0),
+            head=dict(lr_mult=10.0))))
+optimizer_config = dict()
+lr_config = dict(
+    policy='poly',
+    warmup='linear',
+    warmup_iters=1500,
+    warmup_ratio=1e-06,
+    power=1.0,
+    min_lr=0.0,
+    by_epoch=False)
+default_hooks = dict(stop=dict(type='EarlyStoppingHook', monitor='mIoU'))
+runner = dict(type='EpochBasedRunner', max_epochs=100)
+checkpoint_config = dict(by_epoch=True, interval=100)
+evaluation = dict(interval=1, metric='mIoU', save_best='mIoU')
+work_dir = 'work_dirs/petrova/fcn-ps'
+gpu_ids = [0]
+auto_resume = False

data_utils/easyportrait/local_configs/easyportrait_experiments_v2/fpn-fp/fpn-fp.py ADDED Viewed

	@@ -0,0 +1,182 @@

+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained='open-mmlab://resnet50_v1c',
+    backbone=dict(
+        type='ResNetV1c',
+        depth=50,
+        num_stages=4,
+        out_indices=(0, 1, 2, 3),
+        dilations=(1, 1, 1, 1),
+        strides=(1, 2, 2, 2),
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        norm_eval=False,
+        style='pytorch',
+        contract_dilation=True),
+    neck=dict(
+        type='FPN',
+        in_channels=[256, 512, 1024, 2048],
+        out_channels=256,
+        num_outs=4),
+    decode_head=dict(
+        type='FPNHead',
+        in_channels=[256, 256, 256, 256],
+        in_index=[0, 1, 2, 3],
+        feature_strides=[4, 8, 16, 32],
+        channels=128,
+        dropout_ratio=0.1,
+        num_classes=8,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'EasyPortraitFPDataset'
+data_root = '/home/jovyan/datasets/wacv_24/'
+img_norm_cfg = dict(
+    mean=[143.55267075, 132.96705975, 126.94924335],
+    std=[60.2625333, 60.32740275, 59.30988645],
+    to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='RandomFlip', prob=0.0),
+    dict(
+        type='PhotoMetricDistortion',
+        brightness_delta=16,
+        contrast_range=(0.5, 1.0),
+        saturation_range=(0.5, 1.0),
+        hue_delta=5),
+    dict(
+        type='Normalize',
+        mean=[143.55267075, 132.96705975, 126.94924335],
+        std=[60.2625333, 60.32740275, 59.30988645],
+        to_rgb=True),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(384, 384),
+        flip=False,
+        transforms=[
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    train=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/train',
+        ann_dir='easyportrait_384/annotations_fp/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations'),
+            dict(type='RandomFlip', prob=0.0),
+            dict(
+                type='PhotoMetricDistortion',
+                brightness_delta=16,
+                contrast_range=(0.5, 1.0),
+                saturation_range=(0.5, 1.0),
+                hue_delta=5),
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/val',
+        ann_dir='easyportrait_384/annotations_fp/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/test',
+        ann_dir='easyportrait_384/annotations_fp/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    samples_per_gpu=32,
+    workers_per_gpu=8)
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(
+    type='AdamW',
+    lr=6e-05,
+    betas=(0.9, 0.999),
+    weight_decay=0.01,
+    paramwise_cfg=dict(
+        custom_keys=dict(
+            pos_block=dict(decay_mult=0.0),
+            norm=dict(decay_mult=0.0),
+            head=dict(lr_mult=10.0))))
+optimizer_config = dict()
+lr_config = dict(
+    policy='poly',
+    warmup='linear',
+    warmup_iters=1500,
+    warmup_ratio=1e-06,
+    power=1.0,
+    min_lr=0.0,
+    by_epoch=False)
+default_hooks = dict(stop=dict(type='EarlyStoppingHook', monitor='mIoU'))
+runner = dict(type='EpochBasedRunner', max_epochs=100)
+checkpoint_config = dict(by_epoch=True, interval=100)
+evaluation = dict(interval=1, metric='mIoU', save_best='mIoU')
+work_dir = 'work_dirs/petrova/fpn-fp'
+gpu_ids = [0]
+auto_resume = False

data_utils/easyportrait/local_configs/easyportrait_experiments_v2/fpn-ps/fpn-ps.py ADDED Viewed

	@@ -0,0 +1,179 @@

+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained='open-mmlab://resnet50_v1c',
+    backbone=dict(
+        type='ResNetV1c',
+        depth=50,
+        num_stages=4,
+        out_indices=(0, 1, 2, 3),
+        dilations=(1, 1, 1, 1),
+        strides=(1, 2, 2, 2),
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        norm_eval=False,
+        style='pytorch',
+        contract_dilation=True),
+    neck=dict(
+        type='FPN',
+        in_channels=[256, 512, 1024, 2048],
+        out_channels=256,
+        num_outs=4),
+    decode_head=dict(
+        type='FPNHead',
+        in_channels=[256, 256, 256, 256],
+        in_index=[0, 1, 2, 3],
+        feature_strides=[4, 8, 16, 32],
+        channels=128,
+        dropout_ratio=0.1,
+        num_classes=2,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'EasyPortraitPSDataset'
+data_root = '/home/jovyan/datasets/wacv_24/'
+img_norm_cfg = dict(
+    mean=[143.55267075, 132.96705975, 126.94924335],
+    std=[60.2625333, 60.32740275, 59.30988645],
+    to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='RandomFlip', prob=0.0),
+    dict(
+        type='PhotoMetricDistortion',
+        brightness_delta=16,
+        contrast_range=(0.5, 1.0),
+        saturation_range=(0.5, 1.0),
+        hue_delta=5),
+    dict(
+        type='Normalize',
+        mean=[143.55267075, 132.96705975, 126.94924335],
+        std=[60.2625333, 60.32740275, 59.30988645],
+        to_rgb=True),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(384, 384),
+        flip=False,
+        transforms=[
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    train=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/train',
+        ann_dir='easyportrait_384/annotations_ps/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations'),
+            dict(type='RandomFlip', prob=0.0),
+            dict(
+                type='PhotoMetricDistortion',
+                brightness_delta=16,
+                contrast_range=(0.5, 1.0),
+                saturation_range=(0.5, 1.0),
+                hue_delta=5),
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/val',
+        ann_dir='easyportrait_384/annotations_ps/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/test',
+        ann_dir='easyportrait_384/annotations_ps/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    samples_per_gpu=32,
+    workers_per_gpu=8)
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(
+    type='AdamW',
+    lr=6e-05,
+    betas=(0.9, 0.999),
+    weight_decay=0.01,
+    paramwise_cfg=dict(
+        custom_keys=dict(
+            pos_block=dict(decay_mult=0.0),
+            norm=dict(decay_mult=0.0),
+            head=dict(lr_mult=10.0))))
+optimizer_config = dict()
+lr_config = dict(
+    policy='poly',
+    warmup='linear',
+    warmup_iters=1500,
+    warmup_ratio=1e-06,
+    power=1.0,
+    min_lr=0.0,
+    by_epoch=False)
+default_hooks = dict(stop=dict(type='EarlyStoppingHook', monitor='mIoU'))
+runner = dict(type='EpochBasedRunner', max_epochs=100)
+checkpoint_config = dict(by_epoch=True, interval=100)
+evaluation = dict(interval=1, metric='mIoU', save_best='mIoU')
+work_dir = 'work_dirs/petrova/fpn-ps'
+gpu_ids = [0]
+auto_resume = False

data_utils/easyportrait/local_configs/easyportrait_experiments_v2/segformer-fp/segformer-fp.py ADDED Viewed

	@@ -0,0 +1,182 @@

+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained=
+    'https://download.openmmlab.com/mmsegmentation/v0.5/pretrain/segformer/mit_b0_20220624-7e0fe6dd.pth',
+    backbone=dict(
+        type='MixVisionTransformer',
+        in_channels=3,
+        embed_dims=32,
+        num_stages=4,
+        num_layers=[2, 2, 2, 2],
+        num_heads=[1, 2, 5, 8],
+        patch_sizes=[7, 3, 3, 3],
+        sr_ratios=[8, 4, 2, 1],
+        out_indices=(0, 1, 2, 3),
+        mlp_ratio=4,
+        qkv_bias=True,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        drop_path_rate=0.1),
+    decode_head=dict(
+        type='SegformerHead',
+        in_channels=[32, 64, 160, 256],
+        in_index=[0, 1, 2, 3],
+        channels=256,
+        dropout_ratio=0.1,
+        num_classes=8,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'EasyPortraitFPDataset'
+data_root = '/home/jovyan/datasets/wacv_24/'
+img_norm_cfg = dict(
+    mean=[143.55267075, 132.96705975, 126.94924335],
+    std=[60.2625333, 60.32740275, 59.30988645],
+    to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='RandomFlip', prob=0.0),
+    dict(
+        type='PhotoMetricDistortion',
+        brightness_delta=16,
+        contrast_range=(0.5, 1.0),
+        saturation_range=(0.5, 1.0),
+        hue_delta=5),
+    dict(
+        type='Normalize',
+        mean=[143.55267075, 132.96705975, 126.94924335],
+        std=[60.2625333, 60.32740275, 59.30988645],
+        to_rgb=True),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(384, 384),
+        flip=False,
+        transforms=[
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    train=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/train',
+        ann_dir='easyportrait_384/annotations_fp/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations'),
+            dict(type='RandomFlip', prob=0.0),
+            dict(
+                type='PhotoMetricDistortion',
+                brightness_delta=16,
+                contrast_range=(0.5, 1.0),
+                saturation_range=(0.5, 1.0),
+                hue_delta=5),
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/val',
+        ann_dir='easyportrait_384/annotations_fp/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='EasyPortraitFPDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'skin', 'left brow', 'right brow', 'left eye',
+                 'right eye', 'lips', 'teeth'),
+        img_dir='easyportrait_384/images/test',
+        ann_dir='easyportrait_384/annotations_fp/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    samples_per_gpu=32,
+    workers_per_gpu=8)
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(
+    type='AdamW',
+    lr=6e-05,
+    betas=(0.9, 0.999),
+    weight_decay=0.01,
+    paramwise_cfg=dict(
+        custom_keys=dict(
+            pos_block=dict(decay_mult=0.0),
+            norm=dict(decay_mult=0.0),
+            head=dict(lr_mult=10.0))))
+optimizer_config = dict()
+lr_config = dict(
+    policy='poly',
+    warmup='linear',
+    warmup_iters=1500,
+    warmup_ratio=1e-06,
+    power=1.0,
+    min_lr=0.0,
+    by_epoch=False)
+default_hooks = dict(stop=dict(type='EarlyStoppingHook', monitor='mIoU'))
+runner = dict(type='EpochBasedRunner', max_epochs=100)
+checkpoint_config = dict(by_epoch=True, interval=100)
+evaluation = dict(interval=1, metric='mIoU', save_best='mIoU')
+checkpoint = 'https://download.openmmlab.com/mmsegmentation/v0.5/pretrain/segformer/mit_b0_20220624-7e0fe6dd.pth'
+work_dir = 'work_dirs/petrova/segformer-fp'
+gpu_ids = [0]
+auto_resume = False

data_utils/easyportrait/local_configs/easyportrait_experiments_v2/segformer-ps/segformer-ps.py ADDED Viewed

	@@ -0,0 +1,179 @@

+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained=
+    'https://download.openmmlab.com/mmsegmentation/v0.5/pretrain/segformer/mit_b0_20220624-7e0fe6dd.pth',
+    backbone=dict(
+        type='MixVisionTransformer',
+        in_channels=3,
+        embed_dims=32,
+        num_stages=4,
+        num_layers=[2, 2, 2, 2],
+        num_heads=[1, 2, 5, 8],
+        patch_sizes=[7, 3, 3, 3],
+        sr_ratios=[8, 4, 2, 1],
+        out_indices=(0, 1, 2, 3),
+        mlp_ratio=4,
+        qkv_bias=True,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        drop_path_rate=0.1),
+    decode_head=dict(
+        type='SegformerHead',
+        in_channels=[32, 64, 160, 256],
+        in_index=[0, 1, 2, 3],
+        channels=256,
+        dropout_ratio=0.1,
+        num_classes=2,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'EasyPortraitPSDataset'
+data_root = '/home/jovyan/datasets/wacv_24/'
+img_norm_cfg = dict(
+    mean=[143.55267075, 132.96705975, 126.94924335],
+    std=[60.2625333, 60.32740275, 59.30988645],
+    to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='RandomFlip', prob=0.0),
+    dict(
+        type='PhotoMetricDistortion',
+        brightness_delta=16,
+        contrast_range=(0.5, 1.0),
+        saturation_range=(0.5, 1.0),
+        hue_delta=5),
+    dict(
+        type='Normalize',
+        mean=[143.55267075, 132.96705975, 126.94924335],
+        std=[60.2625333, 60.32740275, 59.30988645],
+        to_rgb=True),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(384, 384),
+        flip=False,
+        transforms=[
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    train=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/train',
+        ann_dir='easyportrait_384/annotations_ps/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations'),
+            dict(type='RandomFlip', prob=0.0),
+            dict(
+                type='PhotoMetricDistortion',
+                brightness_delta=16,
+                contrast_range=(0.5, 1.0),
+                saturation_range=(0.5, 1.0),
+                hue_delta=5),
+            dict(
+                type='Normalize',
+                mean=[143.55267075, 132.96705975, 126.94924335],
+                std=[60.2625333, 60.32740275, 59.30988645],
+                to_rgb=True),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/val',
+        ann_dir='easyportrait_384/annotations_ps/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='EasyPortraitPSDataset',
+        data_root='/home/jovyan/datasets/wacv_24/',
+        classes=('background', 'person'),
+        img_dir='easyportrait_384/images/test',
+        ann_dir='easyportrait_384/annotations_ps/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(384, 384),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='Normalize',
+                        mean=[143.55267075, 132.96705975, 126.94924335],
+                        std=[60.2625333, 60.32740275, 59.30988645],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    samples_per_gpu=32,
+    workers_per_gpu=8)
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(
+    type='AdamW',
+    lr=6e-05,
+    betas=(0.9, 0.999),
+    weight_decay=0.01,
+    paramwise_cfg=dict(
+        custom_keys=dict(
+            pos_block=dict(decay_mult=0.0),
+            norm=dict(decay_mult=0.0),
+            head=dict(lr_mult=10.0))))
+optimizer_config = dict()
+lr_config = dict(
+    policy='poly',
+    warmup='linear',
+    warmup_iters=1500,
+    warmup_ratio=1e-06,
+    power=1.0,
+    min_lr=0.0,
+    by_epoch=False)
+default_hooks = dict(stop=dict(type='EarlyStoppingHook', monitor='mIoU'))
+runner = dict(type='EpochBasedRunner', max_epochs=100)
+checkpoint_config = dict(by_epoch=True, interval=100)
+evaluation = dict(interval=1, metric='mIoU', save_best='mIoU')
+checkpoint = 'https://download.openmmlab.com/mmsegmentation/v0.5/pretrain/segformer/mit_b0_20220624-7e0fe6dd.pth'
+work_dir = 'work_dirs/petrova/segformer-ps'
+gpu_ids = [0]
+auto_resume = False

data_utils/easyportrait/mmseg/.mim/configs ADDED Viewed

File without changes

data_utils/easyportrait/mmseg/.mim/tools ADDED Viewed

File without changes

data_utils/easyportrait/mmseg/__init__.py ADDED Viewed

	@@ -0,0 +1,62 @@

+# Copyright (c) OpenMMLab. All rights reserved.
+import warnings
+import mmcv
+from packaging.version import parse
+from .version import __version__, version_info
+MMCV_MIN = '1.3.13'
+MMCV_MAX = '1.8.0'
+def digit_version(version_str: str, length: int = 4):
+    """Convert a version string into a tuple of integers.
+    This method is usually used for comparing two versions. For pre-release
+    versions: alpha < beta < rc.
+    Args:
+        version_str (str): The version string.
+        length (int): The maximum number of version levels. Default: 4.
+    Returns:
+        tuple[int]: The version info in digits (integers).
+    """
+    version = parse(version_str)
+    assert version.release, f'failed to parse version {version_str}'
+    release = list(version.release)
+    release = release[:length]
+    if len(release) < length:
+        release = release + [0] * (length - len(release))
+    if version.is_prerelease:
+        mapping = {'a': -3, 'b': -2, 'rc': -1}
+        val = -4
+        # version.pre can be None
+        if version.pre:
+            if version.pre[0] not in mapping:
+                warnings.warn(f'unknown prerelease version {version.pre[0]}, '
+                              'version checking may go wrong')
+            else:
+                val = mapping[version.pre[0]]
+            release.extend([val, version.pre[-1]])
+        else:
+            release.extend([val, 0])
+    elif version.is_postrelease:
+        release.extend([1, version.post])
+    else:
+        release.extend([0, 0])
+    return tuple(release)
+mmcv_min_version = digit_version(MMCV_MIN)
+mmcv_max_version = digit_version(MMCV_MAX)
+mmcv_version = digit_version(mmcv.__version__)
+assert (mmcv_min_version <= mmcv_version < mmcv_max_version), \
+    f'MMCV=={mmcv.__version__} is used but incompatible. ' \
+    f'Please install mmcv>={mmcv_min_version}, <{mmcv_max_version}.'
+__all__ = ['__version__', 'version_info', 'digit_version']

data_utils/easyportrait/mmseg/apis/__init__.py ADDED Viewed

	@@ -0,0 +1,11 @@

+# Copyright (c) OpenMMLab. All rights reserved.
+from .inference import inference_segmentor, init_segmentor, show_result_pyplot
+from .test import multi_gpu_test, single_gpu_test
+from .train import (get_root_logger, init_random_seed, set_random_seed,
+                    train_segmentor)
+__all__ = [
+    'get_root_logger', 'set_random_seed', 'train_segmentor', 'init_segmentor',
+    'inference_segmentor', 'multi_gpu_test', 'single_gpu_test',
+    'show_result_pyplot', 'init_random_seed'
+]

data_utils/easyportrait/mmseg/apis/inference.py ADDED Viewed

	@@ -0,0 +1,145 @@

+# Copyright (c) OpenMMLab. All rights reserved.
+import matplotlib.pyplot as plt
+import mmcv
+import torch
+from mmcv.parallel import collate, scatter
+from mmcv.runner import load_checkpoint
+from mmseg.datasets.pipelines import Compose
+from mmseg.models import build_segmentor
+def init_segmentor(config, checkpoint=None, device='cuda:0'):
+    """Initialize a segmentor from config file.
+    Args:
+        config (str or :obj:`mmcv.Config`): Config file path or the config
+            object.
+        checkpoint (str, optional): Checkpoint path. If left as None, the model
+            will not load any weights.
+        device (str, optional) CPU/CUDA device option. Default 'cuda:0'.
+            Use 'cpu' for loading model on CPU.
+    Returns:
+        nn.Module: The constructed segmentor.
+    """
+    if isinstance(config, str):
+        config = mmcv.Config.fromfile(config)
+    elif not isinstance(config, mmcv.Config):
+        raise TypeError('config must be a filename or Config object, '
+                        'but got {}'.format(type(config)))
+    config.model.pretrained = None
+    config.model.train_cfg = None
+    model = build_segmentor(config.model, test_cfg=config.get('test_cfg'))
+    if checkpoint is not None:
+        checkpoint = load_checkpoint(model, checkpoint, map_location='cpu')
+        model.CLASSES = checkpoint['meta']['CLASSES']
+        model.PALETTE = checkpoint['meta']['PALETTE']
+    model.cfg = config  # save the config in the model for convenience
+    model.to(device)
+    model.eval()
+    return model
+class LoadImage:
+    """A simple pipeline to load image."""
+    def __call__(self, results):
+        """Call function to load images into results.
+        Args:
+            results (dict): A result dict contains the file name
+                of the image to be read.
+        Returns:
+            dict: ``results`` will be returned containing loaded image.
+        """
+        if isinstance(results['img'], str):
+            results['filename'] = results['img']
+            results['ori_filename'] = results['img']
+        else:
+            results['filename'] = None
+            results['ori_filename'] = None
+        img = mmcv.imread(results['img'])
+        results['img'] = img
+        results['img_shape'] = img.shape
+        results['ori_shape'] = img.shape
+        return results
+def inference_segmentor(model, imgs):
+    """Inference image(s) with the segmentor.
+    Args:
+        model (nn.Module): The loaded segmentor.
+        imgs (str/ndarray or list[str/ndarray]): Either image files or loaded
+            images.
+    Returns:
+        (list[Tensor]): The segmentation result.
+    """
+    cfg = model.cfg
+    device = next(model.parameters()).device  # model device
+    # build the data pipeline
+    test_pipeline = [LoadImage()] + cfg.data.test.pipeline[1:]
+    test_pipeline = Compose(test_pipeline)
+    # prepare data
+    data = []
+    imgs = imgs if isinstance(imgs, list) else [imgs]
+    for img in imgs:
+        img_data = dict(img=img)
+        img_data = test_pipeline(img_data)
+        data.append(img_data)
+    data = collate(data, samples_per_gpu=len(imgs))
+    if next(model.parameters()).is_cuda:
+        # scatter to specified GPU
+        data = scatter(data, [device])[0]
+    else:
+        data['img_metas'] = [i.data[0] for i in data['img_metas']]
+    # forward the model
+    with torch.no_grad():
+        result = model(return_loss=False, rescale=True, **data)
+    return result
+def show_result_pyplot(model,
+                       img,
+                       result,
+                       palette=None,
+                       fig_size=(15, 10),
+                       opacity=0.5,
+                       title='',
+                       block=True,
+                       out_file=None):
+    """Visualize the segmentation results on the image.
+    Args:
+        model (nn.Module): The loaded segmentor.
+        img (str or np.ndarray): Image filename or loaded image.
+        result (list): The segmentation result.
+        palette (list[list[int]]] | None): The palette of segmentation
+            map. If None is given, random palette will be generated.
+            Default: None
+        fig_size (tuple): Figure size of the pyplot figure.
+        opacity(float): Opacity of painted segmentation map.
+            Default 0.5.
+            Must be in (0, 1] range.
+        title (str): The title of pyplot figure.
+            Default is ''.
+        block (bool): Whether to block the pyplot figure.
+            Default is True.
+        out_file (str or None): The path to write the image.
+            Default: None.
+    """
+    if hasattr(model, 'module'):
+        model = model.module
+    img = model.show_result(
+        img, result, palette=palette, show=False, opacity=opacity)
+    plt.figure(figsize=fig_size)
+    plt.imshow(mmcv.bgr2rgb(img))
+    plt.title(title)
+    plt.tight_layout()
+    plt.show(block=block)
+    if out_file is not None:
+        mmcv.imwrite(img, out_file)

data_utils/easyportrait/mmseg/apis/test.py ADDED Viewed

	@@ -0,0 +1,233 @@

+# Copyright (c) OpenMMLab. All rights reserved.
+import os.path as osp
+import tempfile
+import warnings
+import mmcv
+import numpy as np
+import torch
+from mmcv.engine import collect_results_cpu, collect_results_gpu
+from mmcv.image import tensor2imgs
+from mmcv.runner import get_dist_info
+def np2tmp(array, temp_file_name=None, tmpdir=None):
+    """Save ndarray to local numpy file.
+    Args:
+        array (ndarray): Ndarray to save.
+        temp_file_name (str): Numpy file name. If 'temp_file_name=None', this
+            function will generate a file name with tempfile.NamedTemporaryFile
+            to save ndarray. Default: None.
+        tmpdir (str): Temporary directory to save Ndarray files. Default: None.
+    Returns:
+        str: The numpy file name.
+    """
+    if temp_file_name is None:
+        temp_file_name = tempfile.NamedTemporaryFile(
+            suffix='.npy', delete=False, dir=tmpdir).name
+    np.save(temp_file_name, array)
+    return temp_file_name
+def single_gpu_test(model,
+                    data_loader,
+                    show=False,
+                    out_dir=None,
+                    efficient_test=False,
+                    opacity=0.5,
+                    pre_eval=False,
+                    format_only=False,
+                    format_args={}):
+    """Test with single GPU by progressive mode.
+    Args:
+        model (nn.Module): Model to be tested.
+        data_loader (utils.data.Dataloader): Pytorch data loader.
+        show (bool): Whether show results during inference. Default: False.
+        out_dir (str, optional): If specified, the results will be dumped into
+            the directory to save output results.
+        efficient_test (bool): Whether save the results as local numpy files to
+            save CPU memory during evaluation. Mutually exclusive with
+            pre_eval and format_results. Default: False.
+        opacity(float): Opacity of painted segmentation map.
+            Default 0.5.
+            Must be in (0, 1] range.
+        pre_eval (bool): Use dataset.pre_eval() function to generate
+            pre_results for metric evaluation. Mutually exclusive with
+            efficient_test and format_results. Default: False.
+        format_only (bool): Only format result for results commit.
+            Mutually exclusive with pre_eval and efficient_test.
+            Default: False.
+        format_args (dict): The args for format_results. Default: {}.
+    Returns:
+        list: list of evaluation pre-results or list of save file names.
+    """
+    if efficient_test:
+        warnings.warn(
+            'DeprecationWarning: ``efficient_test`` will be deprecated, the '
+            'evaluation is CPU memory friendly with pre_eval=True')
+        mmcv.mkdir_or_exist('.efficient_test')
+    # when none of them is set true, return segmentation results as
+    # a list of np.array.
+    assert [efficient_test, pre_eval, format_only].count(True) <= 1, \
+        '``efficient_test``, ``pre_eval`` and ``format_only`` are mutually ' \
+        'exclusive, only one of them could be true .'
+    model.eval()
+    results = []
+    dataset = data_loader.dataset
+    prog_bar = mmcv.ProgressBar(len(dataset))
+    # The pipeline about how the data_loader retrieval samples from dataset:
+    # sampler -> batch_sampler -> indices
+    # The indices are passed to dataset_fetcher to get data from dataset.
+    # data_fetcher -> collate_fn(dataset[index]) -> data_sample
+    # we use batch_sampler to get correct data idx
+    loader_indices = data_loader.batch_sampler
+    for batch_indices, data in zip(loader_indices, data_loader):
+        with torch.no_grad():
+            result = model(return_loss=False, **data)
+        if show or out_dir:
+            img_tensor = data['img'][0]
+            img_metas = data['img_metas'][0].data[0]
+            imgs = tensor2imgs(img_tensor, **img_metas[0]['img_norm_cfg'])
+            assert len(imgs) == len(img_metas)
+            for img, img_meta in zip(imgs, img_metas):
+                h, w, _ = img_meta['img_shape']
+                img_show = img[:h, :w, :]
+                ori_h, ori_w = img_meta['ori_shape'][:-1]
+                img_show = mmcv.imresize(img_show, (ori_w, ori_h))
+                if out_dir:
+                    out_file = osp.join(out_dir, img_meta['ori_filename'])
+                else:
+                    out_file = None
+                model.module.show_result(
+                    img_show,
+                    result,
+                    palette=dataset.PALETTE,
+                    show=show,
+                    out_file=out_file,
+                    opacity=opacity)
+        if efficient_test:
+            result = [np2tmp(_, tmpdir='.efficient_test') for _ in result]
+        if format_only:
+            result = dataset.format_results(
+                result, indices=batch_indices, **format_args)
+        if pre_eval:
+            # TODO: adapt samples_per_gpu > 1.
+            # only samples_per_gpu=1 valid now
+            result = dataset.pre_eval(result, indices=batch_indices)
+            results.extend(result)
+        else:
+            results.extend(result)
+        batch_size = len(result)
+        for _ in range(batch_size):
+            prog_bar.update()
+    return results
+def multi_gpu_test(model,
+                   data_loader,
+                   tmpdir=None,
+                   gpu_collect=False,
+                   efficient_test=False,
+                   pre_eval=False,
+                   format_only=False,
+                   format_args={}):
+    """Test model with multiple gpus by progressive mode.
+    This method tests model with multiple gpus and collects the results
+    under two different modes: gpu and cpu modes. By setting 'gpu_collect=True'
+    it encodes results to gpu tensors and use gpu communication for results
+    collection. On cpu mode it saves the results on different gpus to 'tmpdir'
+    and collects them by the rank 0 worker.
+    Args:
+        model (nn.Module): Model to be tested.
+        data_loader (utils.data.Dataloader): Pytorch data loader.
+        tmpdir (str): Path of directory to save the temporary results from
+            different gpus under cpu mode. The same path is used for efficient
+            test. Default: None.
+        gpu_collect (bool): Option to use either gpu or cpu to collect results.
+            Default: False.
+        efficient_test (bool): Whether save the results as local numpy files to
+            save CPU memory during evaluation. Mutually exclusive with
+            pre_eval and format_results. Default: False.
+        pre_eval (bool): Use dataset.pre_eval() function to generate
+            pre_results for metric evaluation. Mutually exclusive with
+            efficient_test and format_results. Default: False.
+        format_only (bool): Only format result for results commit.
+            Mutually exclusive with pre_eval and efficient_test.
+            Default: False.
+        format_args (dict): The args for format_results. Default: {}.
+    Returns:
+        list: list of evaluation pre-results or list of save file names.
+    """
+    if efficient_test:
+        warnings.warn(
+            'DeprecationWarning: ``efficient_test`` will be deprecated, the '
+            'evaluation is CPU memory friendly with pre_eval=True')
+        mmcv.mkdir_or_exist('.efficient_test')
+    # when none of them is set true, return segmentation results as
+    # a list of np.array.
+    assert [efficient_test, pre_eval, format_only].count(True) <= 1, \
+        '``efficient_test``, ``pre_eval`` and ``format_only`` are mutually ' \
+        'exclusive, only one of them could be true .'
+    model.eval()
+    results = []
+    dataset = data_loader.dataset
+    # The pipeline about how the data_loader retrieval samples from dataset:
+    # sampler -> batch_sampler -> indices
+    # The indices are passed to dataset_fetcher to get data from dataset.
+    # data_fetcher -> collate_fn(dataset[index]) -> data_sample
+    # we use batch_sampler to get correct data idx
+    # batch_sampler based on DistributedSampler, the indices only point to data
+    # samples of related machine.
+    loader_indices = data_loader.batch_sampler
+    rank, world_size = get_dist_info()
+    if rank == 0:
+        prog_bar = mmcv.ProgressBar(len(dataset))
+    for batch_indices, data in zip(loader_indices, data_loader):
+        with torch.no_grad():
+            result = model(return_loss=False, rescale=True, **data)
+        if efficient_test:
+            result = [np2tmp(_, tmpdir='.efficient_test') for _ in result]
+        if format_only:
+            result = dataset.format_results(
+                result, indices=batch_indices, **format_args)
+        if pre_eval:
+            # TODO: adapt samples_per_gpu > 1.
+            # only samples_per_gpu=1 valid now
+            result = dataset.pre_eval(result, indices=batch_indices)
+        results.extend(result)
+        if rank == 0:
+            batch_size = len(result) * world_size
+            for _ in range(batch_size):
+                prog_bar.update()
+    # collect results from all ranks
+    if gpu_collect:
+        results = collect_results_gpu(results, len(dataset))
+    else:
+        results = collect_results_cpu(results, len(dataset), tmpdir)
+    return results

data_utils/easyportrait/mmseg/apis/train.py ADDED Viewed

	@@ -0,0 +1,194 @@

+# Copyright (c) OpenMMLab. All rights reserved.
+import os
+import random
+import warnings
+import mmcv
+import numpy as np
+import torch
+import torch.distributed as dist
+from mmcv.runner import (HOOKS, DistSamplerSeedHook, EpochBasedRunner,
+                         build_runner, get_dist_info)
+from mmcv.utils import build_from_cfg
+from mmseg import digit_version
+from mmseg.core import DistEvalHook, EvalHook, build_optimizer
+from mmseg.datasets import build_dataloader, build_dataset
+from mmseg.utils import (build_ddp, build_dp, find_latest_checkpoint,
+                         get_root_logger)
+def init_random_seed(seed=None, device='cuda'):
+    """Initialize random seed.
+    If the seed is not set, the seed will be automatically randomized,
+    and then broadcast to all processes to prevent some potential bugs.
+    Args:
+        seed (int, Optional): The seed. Default to None.
+        device (str): The device where the seed will be put on.
+            Default to 'cuda'.
+    Returns:
+        int: Seed to be used.
+    """
+    if seed is not None:
+        return seed
+    # Make sure all ranks share the same random seed to prevent
+    # some potential bugs. Please refer to
+    # https://github.com/open-mmlab/mmdetection/issues/6339
+    rank, world_size = get_dist_info()
+    seed = np.random.randint(2**31)
+    if world_size == 1:
+        return seed
+    if rank == 0:
+        random_num = torch.tensor(seed, dtype=torch.int32, device=device)
+    else:
+        random_num = torch.tensor(0, dtype=torch.int32, device=device)
+    dist.broadcast(random_num, src=0)
+    return random_num.item()
+def set_random_seed(seed, deterministic=False):
+    """Set random seed.
+    Args:
+        seed (int): Seed to be used.
+        deterministic (bool): Whether to set the deterministic option for
+            CUDNN backend, i.e., set `torch.backends.cudnn.deterministic`
+            to True and `torch.backends.cudnn.benchmark` to False.
+            Default: False.
+    """
+    random.seed(seed)
+    np.random.seed(seed)
+    torch.manual_seed(seed)
+    torch.cuda.manual_seed_all(seed)
+    if deterministic:
+        torch.backends.cudnn.deterministic = True
+        torch.backends.cudnn.benchmark = False
+def train_segmentor(model,
+                    dataset,
+                    cfg,
+                    distributed=False,
+                    validate=False,
+                    timestamp=None,
+                    meta=None):
+    """Launch segmentor training."""
+    logger = get_root_logger(cfg.log_level)
+    # prepare data loaders
+    dataset = dataset if isinstance(dataset, (list, tuple)) else [dataset]
+    # The default loader config
+    loader_cfg = dict(
+        # cfg.gpus will be ignored if distributed
+        num_gpus=len(cfg.gpu_ids),
+        dist=distributed,
+        seed=cfg.seed,
+        drop_last=True)
+    # The overall dataloader settings
+    loader_cfg.update({
+        k: v
+        for k, v in cfg.data.items() if k not in [
+            'train', 'val', 'test', 'train_dataloader', 'val_dataloader',
+            'test_dataloader'
+        ]
+    })
+    # The specific dataloader settings
+    train_loader_cfg = {**loader_cfg, **cfg.data.get('train_dataloader', {})}
+    data_loaders = [build_dataloader(ds, **train_loader_cfg) for ds in dataset]
+    # put model on devices
+    if distributed:
+        find_unused_parameters = cfg.get('find_unused_parameters', False)
+        # Sets the `find_unused_parameters` parameter in
+        # DDP wrapper
+        model = build_ddp(
+            model,
+            cfg.device,
+            device_ids=[int(os.environ['LOCAL_RANK'])],
+            broadcast_buffers=False,
+            find_unused_parameters=find_unused_parameters)
+    else:
+        if not torch.cuda.is_available():
+            assert digit_version(mmcv.__version__) >= digit_version('1.4.4'), \
+                'Please use MMCV >= 1.4.4 for CPU training!'
+        model = build_dp(model, cfg.device, device_ids=cfg.gpu_ids)
+    # build runner
+    optimizer = build_optimizer(model, cfg.optimizer)
+    if cfg.get('runner') is None:
+        cfg.runner = {'type': 'IterBasedRunner', 'max_iters': cfg.total_iters}
+        warnings.warn(
+            'config is now expected to have a `runner` section, '
+            'please set `runner` in your config.', UserWarning)
+    runner = build_runner(
+        cfg.runner,
+        default_args=dict(
+            model=model,
+            batch_processor=None,
+            optimizer=optimizer,
+            work_dir=cfg.work_dir,
+            logger=logger,
+            meta=meta))
+    # register hooks
+    runner.register_training_hooks(cfg.lr_config, cfg.optimizer_config,
+                                   cfg.checkpoint_config, cfg.log_config,
+                                   cfg.get('momentum_config', None))
+    if distributed:
+        # when distributed training by epoch, using`DistSamplerSeedHook` to set
+        # the different seed to distributed sampler for each epoch, it will
+        # shuffle dataset at each epoch and avoid overfitting.
+        if isinstance(runner, EpochBasedRunner):
+            runner.register_hook(DistSamplerSeedHook())
+    # an ugly walkaround to make the .log and .log.json filenames the same
+    runner.timestamp = timestamp
+    # register eval hooks
+    if validate:
+        val_dataset = build_dataset(cfg.data.val, dict(test_mode=True))
+        # The specific dataloader settings
+        val_loader_cfg = {
+            **loader_cfg,
+            'samples_per_gpu': 1,
+            'shuffle': False,  # Not shuffle by default
+            **cfg.data.get('val_dataloader', {}),
+        }
+        val_dataloader = build_dataloader(val_dataset, **val_loader_cfg)
+        eval_cfg = cfg.get('evaluation', {})
+        eval_cfg['by_epoch'] = cfg.runner['type'] != 'IterBasedRunner'
+        eval_hook = DistEvalHook if distributed else EvalHook
+        # In this PR (https://github.com/open-mmlab/mmcv/pull/1193), the
+        # priority of IterTimerHook has been modified from 'NORMAL' to 'LOW'.
+        runner.register_hook(
+            eval_hook(val_dataloader, **eval_cfg), priority='LOW')
+    # user-defined hooks
+    if cfg.get('custom_hooks', None):
+        custom_hooks = cfg.custom_hooks
+        assert isinstance(custom_hooks, list), \
+            f'custom_hooks expect list type, but got {type(custom_hooks)}'
+        for hook_cfg in cfg.custom_hooks:
+            assert isinstance(hook_cfg, dict), \
+                'Each item in custom_hooks expects dict type, but got ' \
+                f'{type(hook_cfg)}'
+            hook_cfg = hook_cfg.copy()
+            priority = hook_cfg.pop('priority', 'NORMAL')
+            hook = build_from_cfg(hook_cfg, HOOKS)
+            runner.register_hook(hook, priority=priority)
+    if cfg.resume_from is None and cfg.get('auto_resume'):
+        resume_from = find_latest_checkpoint(cfg.work_dir)
+        if resume_from is not None:
+            cfg.resume_from = resume_from
+    if cfg.resume_from:
+        runner.resume(cfg.resume_from)
+    elif cfg.load_from:
+        runner.load_checkpoint(cfg.load_from)
+    runner.run(data_loaders, cfg.workflow)

data_utils/easyportrait/mmseg/core/__init__.py ADDED Viewed

	@@ -0,0 +1,12 @@

+# Copyright (c) OpenMMLab. All rights reserved.
+from .builder import (OPTIMIZER_BUILDERS, build_optimizer,
+                      build_optimizer_constructor)
+from .evaluation import *  # noqa: F401, F403
+from .hook import *  # noqa: F401, F403
+from .optimizers import *  # noqa: F401, F403
+from .seg import *  # noqa: F401, F403
+from .utils import *  # noqa: F401, F403
+__all__ = [
+    'OPTIMIZER_BUILDERS', 'build_optimizer', 'build_optimizer_constructor'
+]

data_utils/easyportrait/mmseg/core/builder.py ADDED Viewed

	@@ -0,0 +1,33 @@

+# Copyright (c) OpenMMLab. All rights reserved.
+import copy
+from mmcv.runner.optimizer import OPTIMIZER_BUILDERS as MMCV_OPTIMIZER_BUILDERS
+from mmcv.utils import Registry, build_from_cfg
+OPTIMIZER_BUILDERS = Registry(
+    'optimizer builder', parent=MMCV_OPTIMIZER_BUILDERS)
+def build_optimizer_constructor(cfg):
+    constructor_type = cfg.get('type')
+    if constructor_type in OPTIMIZER_BUILDERS:
+        return build_from_cfg(cfg, OPTIMIZER_BUILDERS)
+    elif constructor_type in MMCV_OPTIMIZER_BUILDERS:
+        return build_from_cfg(cfg, MMCV_OPTIMIZER_BUILDERS)
+    else:
+        raise KeyError(f'{constructor_type} is not registered '
+                       'in the optimizer builder registry.')
+def build_optimizer(model, cfg):
+    optimizer_cfg = copy.deepcopy(cfg)
+    constructor_type = optimizer_cfg.pop('constructor',
+                                         'DefaultOptimizerConstructor')
+    paramwise_cfg = optimizer_cfg.pop('paramwise_cfg', None)
+    optim_constructor = build_optimizer_constructor(
+        dict(
+            type=constructor_type,
+            optimizer_cfg=optimizer_cfg,
+            paramwise_cfg=paramwise_cfg))
+    optimizer = optim_constructor(model)
+    return optimizer