Spaces:

Madras1
/

APILARGE

Sleeping

App Files Files Community

Madras1 commited on 20 days ago

Commit

262ec9c

verified ·

1 Parent(s): c42c1be

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -20

app.py CHANGED Viewed

@@ -2,59 +2,62 @@ import gradio as gr
 import spaces
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 # --- CONFIGURAÇÃO DOS TITÃS ---
 MODEL_ID = "Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4"
-print(f"🏗️ Berta: Iniciando protocolos para o Titã {MODEL_ID}...")
 # Variáveis Globais (Cache)
 model = None
 tokenizer = None
 def load_titan():
     global model, tokenizer
     if model is None:
-        print(f"🔥 Berta: Acordando o gigante na H200... (Isso pode levar uns segundos)")
         try:
             tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
-            # Carregando com suporte a GPTQ e device_map auto para usar a VRAM toda
             model = AutoModelForCausalLM.from_pretrained(
                 MODEL_ID,
                 device_map="auto",
                 trust_remote_code=True,
                 torch_dtype=torch.float16
             )
-            print("✅ O Titã Qwen 72B está online e operante, Gabriel!")
         except Exception as e:
             print(f"❌ Erro catastrófico ao carregar o Titã: {e}")
             raise e
     return model, tokenizer
 # --- FUNÇÃO DE GERAÇÃO (ZEROGPU) ---
-@spaces.GPU(duration=120)
 def generate(message, history, system_prompt, temperature, max_tokens):
     model, tokenizer = load_titan()
-    # --- TRATAMENTO DE HISTÓRICO CLÁSSICO (BLINDADO) ---
-    # Berta: Aqui convertemos a lista de listas [[user, bot], ...] para o formato do Qwen
     messages = []
     if system_prompt:
         messages.append({"role": "system", "content": system_prompt})
-    # Iteramos item a item para evitar erro de "too many values to unpack"
     for turn in history:
-        user_msg = turn[0]
-        bot_msg = turn[1]
-        if user_msg:
-            messages.append({"role": "user", "content": user_msg})
-        if bot_msg:
-            messages.append({"role": "assistant", "content": bot_msg})
-    # Adiciona a mensagem atual
     messages.append({"role": "user", "content": message})
     text = tokenizer.apply_chat_template(
@@ -89,14 +92,17 @@ with gr.Blocks() as demo:
             value="Você é um assistente de IA especialista, focado em soluções de código complexas e arquitetura de software.",
             lines=2
         )
-        temp = gr.Slider(minimum=0.1, maximum=1.0, value=0.7, label="Temperatura (Criatividade)")
-        tokens = gr.Slider(minimum=256, maximum=8192, value=4096, label="Máximo de Tokens (Saída)")
-    # Berta: Removi o 'type="messages"' e 'theme' para garantir compatibilidade total
     chat = gr.ChatInterface(
         fn=generate,
         additional_inputs=[sys_prompt, temp, tokens]
     )
 if __name__ == "__main__":
     demo.launch()

 import spaces
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
+from huggingface_hub import snapshot_download # <--- Importante para baixar antes
 # --- CONFIGURAÇÃO DOS TITÃS ---
 MODEL_ID = "Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4"
+print(f"🏗️ Berta: Configurando o ambiente para o Titã {MODEL_ID}...")
 # Variáveis Globais (Cache)
 model = None
 tokenizer = None
+# --- FUNÇÃO DE DOWNLOAD EXPLÍCITO ---
+def download_model_first():
+    print("⏳ Berta: Iniciando download preventivo dos pesos (Isso vai demorar, tenha fé!)...")
+    try:
+        # Isso baixa os arquivos para o cache do Space SEM usar tempo de GPU
+        snapshot_download(repo_id=MODEL_ID)
+        print("✅ Download concluído! Os arquivos estão em casa.")
+    except Exception as e:
+        print(f"⚠️ Aviso: O download falhou ou já existe. Erro: {e}")
 def load_titan():
     global model, tokenizer
     if model is None:
+        print(f"🔥 Berta: Carregando o modelo na VRAM H200...")
         try:
             tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
+            # Aqui ele vai achar os arquivos já baixados, então será rápido!
             model = AutoModelForCausalLM.from_pretrained(
                 MODEL_ID,
                 device_map="auto",
                 trust_remote_code=True,
                 torch_dtype=torch.float16
             )
+            print("✅ O Titã Qwen 72B está pronto para a batalha!")
         except Exception as e:
             print(f"❌ Erro catastrófico ao carregar o Titã: {e}")
             raise e
     return model, tokenizer
 # --- FUNÇÃO DE GERAÇÃO (ZEROGPU) ---
+# Aumentei para 300 segundos (5 minutos) para garantir que ele tenha tempo de pensar
+@spaces.GPU(duration=300)
 def generate(message, history, system_prompt, temperature, max_tokens):
     model, tokenizer = load_titan()
     messages = []
     if system_prompt:
         messages.append({"role": "system", "content": system_prompt})
+    # Tratamento manual do histórico (Blindado contra erros de versão)
     for turn in history:
+        if turn[0]: messages.append({"role": "user", "content": turn[0]})
+        if turn[1]: messages.append({"role": "assistant", "content": turn[1]})
     messages.append({"role": "user", "content": message})
     text = tokenizer.apply_chat_template(
             value="Você é um assistente de IA especialista, focado em soluções de código complexas e arquitetura de software.",
             lines=2
         )
+        temp = gr.Slider(minimum=0.1, maximum=1.0, value=0.7, label="Temperatura")
+        tokens = gr.Slider(minimum=256, maximum=8192, value=4096, label="Máximo de Tokens")
     chat = gr.ChatInterface(
         fn=generate,
         additional_inputs=[sys_prompt, temp, tokens]
     )
 if __name__ == "__main__":
+    # Berta: A mágica acontece aqui! 👇
+    # Antes de lançar o site, garantimos que o modelo está baixado.
+    download_model_first()
     demo.launch()