File size: 2,267 Bytes
7e2816d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
from transformers import AutoProcessor, AutoModelForCausalLM
from PIL import Image
import torch

class TextHandler:
    def process(self):
        return input("⌨️ Digite sua mensagem: ").strip()

class AudioHandler:
    def __init__(self, client, audio_model):
        self.client = client
        self.audio_model = audio_model
        
class ImageHandler:
    def __init__(self, model_name):
        self.processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
        self.model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True)
        self.device = "cuda" if torch.cuda.is_available() else "cpu"
        self.model.to(self.device)
        self.model.eval()

    def process_pil_image(self, pil_image: Image.Image):
        """Processa um objeto PIL.Image vindo diretamente do Gradio."""
        if not isinstance(pil_image, Image.Image):
            raise TypeError("A entrada deve ser um objeto PIL.Image.")
        return self._generate_caption(pil_image.convert("RGB"))

    def _generate_caption(self, img):
        """Lógica de geração de legenda reutilizável usando Florence-2."""
        # Prompt para descrição detalhada
        prompt = "<MORE_DETAILED_CAPTION>"
        
        with torch.no_grad():
            inputs = self.processor(text=prompt, images=img, return_tensors="pt").to(self.device)
            
            generated_ids = self.model.generate(
                input_ids=inputs["input_ids"],
                pixel_values=inputs["pixel_values"],
                max_new_tokens=1024,
                do_sample=False,
                num_beams=3,
            )
            
            generated_text = self.processor.batch_decode(generated_ids, skip_special_tokens=False)[0]
            
            # O Florence-2 requer pós-processamento para extrair a resposta limpa
            parsed_answer = self.processor.post_process_generation(
                generated_text, 
                task=prompt, 
                image_size=(img.width, img.height)
            )
            
            # parsed_answer retorna um dict, ex: {'<MORE_DETAILED_CAPTION>': 'texto da legenda'}
            return parsed_answer.get(prompt, "")