1 8

Mark Endo

markendo

AI & ML interests

None yet

Recent Activity

updated a dataset 15 days ago

markendo/CoIN-Grounding-Small

published a dataset 15 days ago

markendo/CoIN-Grounding-Small

updated a dataset 22 days ago

markendo/LLaVA-NeXT-Interleave-Bench-Filtered

View all activity

Organizations

None yet

updated a dataset 15 days ago

markendo/CoIN-Grounding-Small

Viewer • Updated 15 days ago • 1k • 36

published a dataset 15 days ago

markendo/CoIN-Grounding-Small

Viewer • Updated 15 days ago • 1k • 36

updated a dataset 22 days ago

markendo/LLaVA-NeXT-Interleave-Bench-Filtered

Viewer • Updated 22 days ago • 4.86k • 44

published a dataset 22 days ago

markendo/LLaVA-NeXT-Interleave-Bench-Filtered

Viewer • Updated 22 days ago • 4.86k • 44

updated a dataset about 1 month ago

markendo/VMCBench

Viewer • Updated Oct 8 • 2.82k • 43

published a dataset about 1 month ago

markendo/VMCBench

Viewer • Updated Oct 8 • 2.82k • 43

updated a dataset about 1 month ago

markendo/CoIN-GQA-Filtered

Viewer • Updated Oct 5 • 1.5k • 4

published a dataset about 1 month ago

markendo/CoIN-GQA-Filtered

Viewer • Updated Oct 5 • 1.5k • 4

upvoted a paper 7 months ago

SmolVLM: Redefining small and efficient multimodal models

Paper • 2504.05299 • Published Apr 7 • 200

upvoted 2 papers 8 months ago

MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

Paper • 2503.13399 • Published Mar 17 • 22

Video Action Differencing

Paper • 2503.07860 • Published Mar 10 • 33

upvoted 2 papers 10 months ago

Temporal Preference Optimization for Long-Form Video Understanding

Paper • 2501.13919 • Published Jan 23 • 23

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

Paper • 2501.07171 • Published Jan 13 • 55

upvoted a paper 11 months ago

Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration

Paper • 2412.13180 • Published Dec 17, 2024 • 13

commented a paper 11 months ago

Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration

Paper • 2412.13180 • Published Dec 17, 2024 • 13 •

upvoted a paper 11 months ago

Apollo: An Exploration of Video Understanding in Large Multimodal Models

Paper • 2412.10360 • Published Dec 13, 2024 • 147

upvoted a paper over 1 year ago

Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision

Paper • 2407.06189 • Published Jul 8, 2024 • 26

authored a paper almost 2 years ago

Motion Question Answering via Modular Motion Programs

Paper • 2305.08953 • Published May 15, 2023

Mark Endo

AI & ML interests

Recent Activity

Organizations

markendo's activity