---
language: ja
license: apache-2.0
tags:
- clip
- japanese
- multimodal
- vision-language
- stair-captions
- image-text-matching
- full-tuning # タグを更新
datasets:
- stair-captions
library_name: transformers
pipeline_tag: zero-shot-image-classification
---

# Japanese CLIP Model with Full Tuning

日本語画像・テキスト対応CLIPモデル（STAIR Captions v1.2で学習、両エンコーダー学習）

## モデル概要 / Model Overview

このモデルは、STAIR Captions v1.2データセットで画像エンコーダーとテキストエンコーダーの両方をファインチューニングして学習された日本語対応のCLIPモデルです。

## 特徴 / Features

- **Full Tuning**: 画像エンコーダーとテキストエンコーダーの両方を学習
- **高品質な日本語理解**: BERT-base-japanese-v3をファインチューニング
- **温度付きコントラスト損失**: InfoNCE損失による効果的な学習

## モデル詳細 / Model Details

- **テキストエンコーダー**: tohoku-nlp/bert-base-japanese-v3 (ファインチューニング)
- **画像エンコーダー**: ResNet50 (ImageNet事前学習済み、ファインチューニング) # 説明を更新
- **学習手法**: Full Tuning (両エンコーダーの同時学習) # 説明を更新
- **共通埋め込み次元**: 512
- **画像サイズ**: 224x224
- **最大テキスト長**: 128
- **学習率**: 1e-05
- **損失関数**: 温度付きコントラスト損失 (InfoNCE)

## 使用方法 / How to Use

```python
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

# モデルとトークナイザーのロード
tokenizer = AutoTokenizer.from_pretrained("AoiNoGeso/japanese-clip-stair-v3")
model = AutoModel.from_pretrained("AoiNoGeso/japanese-clip-stair-v3")

# 推論例
text = "猫が座っている"
tokens = tokenizer(text, return_tensors="pt", padding=True, truncation=True)

# テキスト埋め込みを取得
with torch.no_grad():
    text_embeddings = model.text_encoder(tokens["input_ids"], tokens["attention_mask"])
```

## 学習データ / Training Data
- データセット: STAIR Captions v1.2
- 言語: 日本語
- ドメイン: 一般的な画像キャプション

## ライセンス / License
Apache License 2.0