6 43 110

Pu Fanyi

pufanyi

https://pufanyi.github.io

AI & ML interests

Recent Activity

updated a model about 9 hours ago

pufanyi/SC4001-vit-large-patch16-384-wsd-adamw

published a model about 9 hours ago

pufanyi/SC4001-vit-large-patch16-384-wsd-adamw

updated a model about 11 hours ago

pufanyi/SC4001-convnextv2-pico-1k-224-wsd-adamw

View all activity

Organizations

upvoted a paper 3 days ago

Qwen2.5-VL Technical Report

Paper • 2502.13923 • Published Feb 19 • 209

upvoted a collection 4 days ago

VST

Collection

A comprehensive framework designed to cultivate VLMs with human-like visuospatial abilities. • 5 items • Updated 2 days ago • 5

upvoted 2 papers 8 days ago

When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

Paper • 2511.02779 • Published 9 days ago • 53

Diffusion Language Models are Super Data Learners

Paper • 2511.03276 • Published 9 days ago • 112

upvoted a paper 14 days ago

The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

Paper • 2510.26794 • Published 14 days ago • 27

upvoted a paper about 1 month ago

LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

Paper • 2509.23661 • Published Sep 28 • 44

upvoted 2 papers about 2 months ago

Video models are zero-shot learners and reasoners

Paper • 2509.20328 • Published Sep 24 • 96

Visual Jigsaw Post-Training Improves MLLMs

Paper • 2509.25190 • Published Sep 29 • 35

upvoted a paper 2 months ago

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Paper • 2502.14786 • Published Feb 20 • 154

upvoted a paper 4 months ago

CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization

Paper • 2507.06181 • Published Jul 8 • 43

upvoted an article 5 months ago

Article

OpenEvolve: An Open Source Implementation of Google DeepMind's AlphaEvolve

May 20

•

upvoted an article 8 months ago

Article

SmolVLM Grows Smaller – Introducing the 256M & 500M Models!

Jan 23

•

186

upvoted a paper 8 months ago

SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

Paper • 2503.11576 • Published Mar 14 • 117

upvoted 3 papers 9 months ago

Fast Video Generation with Sliding Tile Attention

Paper • 2502.04507 • Published Feb 6 • 51

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Paper • 2501.17161 • Published Jan 28 • 123

The N+ Implementation Details of RLHF with PPO: A Case Study on TL;DR Summarization

Paper • 2403.17031 • Published Mar 24, 2024 • 6

upvoted 4 papers 10 months ago

Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos

Paper • 2501.13826 • Published Jan 23 • 25