Aleph-Alpha
/

llama-3_1-8b-tfree-hat-dpo

hierarchical_autoregressive_transformer

Aleph Alpha Research

Hirarchical Autoregressive Transformer

Model card Files Files and versions

llama-3_1-8b-tfree-hat-dpo / config.yaml

maxmeuer's picture

Update transformer

7568e10 verified about 1 month ago

history blame contribute delete

2.36 kB

	encoder_config:
	vocab_size: 256
	hidden_size: 1024
	num_hidden_layers: 6
	num_attention_heads: 8
	num_key_value_heads: 8
	rms_norm_eps: 1.0e-05
	intermediate_size: 2816
	max_position_embeddings: 262144
	rope_scaling:
	rope_type: default
	rope_theta: 100000
	mlp_bias: false
	use_cache: true
	sliding_window: 768
	transformers_version: null
	key_query_norm: false
	key_query_norm_per_head: false
	is_neox_style: true
	cross_attention_config:
	hidden_size_q: 4096
	hidden_size_kv: 1024
	hidden_size: 4096
	num_attention_heads: 32
	attention_num_kv_heads: 32
	word_window_size: 1
	key_query_norm: false
	key_query_norm_per_head: false
	backbone_config:
	vocab_size: 0
	hidden_size: 4096
	num_hidden_layers: 32
	num_attention_heads: 32
	num_key_value_heads: 8
	rms_norm_eps: 1.0e-05
	intermediate_size: 14336
	max_position_embeddings: 32768
	rope_scaling:
	rope_type: llama3
	factor: 8.0
	original_max_position_embeddings: 8192
	low_freq_factor: 1.0
	high_freq_factor: 4.0
	rope_theta: 500000
	mlp_bias: false
	use_cache: true
	sliding_window: null
	transformers_version: null
	key_query_norm: false
	key_query_norm_per_head: false
	is_neox_style: true
	decoder_config:
	vocab_size: 256
	hidden_size: 1024
	num_hidden_layers: 4
	num_attention_heads: 8
	num_key_value_heads: 8
	rms_norm_eps: 1.0e-05
	intermediate_size: 2816
	max_position_embeddings: 262144
	rope_scaling:
	rope_type: default
	rope_theta: 100000
	mlp_bias: false
	use_cache: true
	sliding_window: 768
	transformers_version: null
	key_query_norm: false
	key_query_norm_per_head: false
	is_neox_style: true
	cross_attn_every_layer: true
	cross_attention_config:
	hidden_size_q: 1024
	hidden_size_kv: 4096
	hidden_size: 1024
	num_attention_heads: 8
	attention_num_kv_heads: 8
	word_window_size: 1
	key_query_norm: false
	key_query_norm_per_head: false
	model_type: hierarchical_autoregressive_transformer
	transformers_version: 4.46.3
	auto_map:
	AutoConfig: config.HATArchitectureConfig
	AutoModelForCausalLM: model.HATForCausalLM
	special_token_dict:
	<\|begin_of_text\|>: 250
	<\|start_header_id\|>: 251
	<\|end_header_id\|>: 252
	<\|eot_id\|>: 192
	max_word_size: 100
	sliding_window: 768
	max_position_embeddings: 262144
	torch_dtype: bfloat16
	architectures:
	- HATDecoderForCausalLM