--- language: ja license: apache-2.0 tags: - clip - japanese - multimodal - vision-language - stair-captions - image-text-matching - full-tuning # タグを更新 datasets: - stair-captions library_name: transformers pipeline_tag: zero-shot-image-classification --- # Japanese CLIP Model with Full Tuning 日本語画像・テキスト対応CLIPモデル(STAIR Captions v1.2で学習、両エンコーダー学習) ## モデル概要 / Model Overview このモデルは、STAIR Captions v1.2データセットで画像エンコーダーとテキストエンコーダーの両方をファインチューニングして学習された日本語対応のCLIPモデルです。 ## 特徴 / Features - **Full Tuning**: 画像エンコーダーとテキストエンコーダーの両方を学習 - **高品質な日本語理解**: BERT-base-japanese-v3をファインチューニング - **温度付きコントラスト損失**: InfoNCE損失による効果的な学習 ## モデル詳細 / Model Details - **テキストエンコーダー**: tohoku-nlp/bert-base-japanese-v3 (ファインチューニング) - **画像エンコーダー**: ResNet50 (ImageNet事前学習済み、ファインチューニング) # 説明を更新 - **学習手法**: Full Tuning (両エンコーダーの同時学習) # 説明を更新 - **共通埋め込み次元**: 512 - **画像サイズ**: 224x224 - **最大テキスト長**: 128 - **学習率**: 1e-05 - **損失関数**: 温度付きコントラスト損失 (InfoNCE) ## 使用方法 / How to Use ```python from transformers import AutoTokenizer, AutoModel import torch import torch.nn.functional as F # モデルとトークナイザーのロード tokenizer = AutoTokenizer.from_pretrained("AoiNoGeso/japanese-clip-stair-v3") model = AutoModel.from_pretrained("AoiNoGeso/japanese-clip-stair-v3") # 推論例 text = "猫が座っている" tokens = tokenizer(text, return_tensors="pt", padding=True, truncation=True) # テキスト埋め込みを取得 with torch.no_grad(): text_embeddings = model.text_encoder(tokens["input_ids"], tokens["attention_mask"]) ``` ## 学習データ / Training Data - データセット: STAIR Captions v1.2 - 言語: 日本語 - ドメイン: 一般的な画像キャプション ## ライセンス / License Apache License 2.0