"topic:vlms" — Search

97 results for “topic:vlms”

Anomaly detection related books, papers, videos, and toolboxes. Last update late 2025 for LLM and VLM works!

anomaly-detectionawesomeawesome-listdata-miningfraudfraud-detectiongraph-neural-networkslarge-language-modelsllmmachine-learningoutlieroutlier-detectionoutlier-ensemblestime-series-analysisunsupervised-learningvlmvlms

oumi-ai/oumi

Easily fine-tune, evaluate and deploy gpt-oss, Qwen3, DeepSeek-R1, or any open source LLM / VLM!

Python8.9k707Updated 2 days ago

dpoevaluationfine-tuninggpt-ossgpt-oss-120bgpt-oss-20binferencellamallmssftslmsvlms

NanoNets/docext

An on-premises, OCR-free unstructured data extraction, markdown conversion and benchmarking toolkit. (https://idp-leaderboard.org/)

Python1.9k135Updated 6 months ago

documentdocument-analysisdocument-data-extractiondocument-information-extractionextractionllm-ocrllmsmachine-learningnlpocrocr-benchmarkocr-onpremiseonpremonprem-ocronprem-visiononpremiseragtable-extractionunstructured-datavlms

yueliu1999/Awesome-Jailbreak-on-LLMs

Awesome-Jailbreak-on-LLMs is a collection of state-of-the-art, novel, exciting jailbreak methods on LLMs. It contains papers, codes, datasets, evaluations, and analyses.

1.2k102Updated 1 week ago

aijailbreakllmllmsprivacysafetysecurityvlmvlms

intel/auto-round

🎯An accuracy-first, highly efficient quantization toolkit for LLMs, designed to minimize quality degradation across Weight-Only Quantization, MXFP4, NVFP4, GGUF, and adaptive schemes.

Python88681Updated 10 hours ago

ggufint4llmsmxfp4nvfp4quantizationroundingsglangtransformersvllmvlms

JIA-Lab-research/VisionZip

Official repository for VisionZip (CVPR 2025)

Python41119Updated 7 months ago

efficiencymulti-modalityvision-language-modelvlms

tianyi-lab/HallusionBench

[CVPR'24] HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

Python3339Updated 5 months ago

benchmarkbenchmarksgpt-4gpt-4vhallucinationlarge-language-modelslarge-vision-language-modelsllavallmlmmvlms

cequence-io/openai-scala-client

Scala client for OpenAI API and other major LLM providers

Scala24336Updated 1 week ago

anthropicanthropic-apiaws-bedrockchatgptgeminigemini-aigroq-apillmsnlp-libraryopenaiopenai-api-clientperplexity-apiscalavertex-ai-gemini-apivlms

Beckschen/ViTamin

[CVPR 2024] Official implementation of "ViTamin: Designing Scalable Vision Models in the Vision-language Era"

Python2106Updated 1 year ago

scalable-vision-encodervlms

TUM-AVS/FM-AD-Survey

This repository collects research papers of large Foundation Models for Scenario Generation and Analysis in Autonomous Driving. The repository will be continuously updated to track the latest update.

18315Updated 3 days ago

autonomous-drivingdiffusion-modelsfoundation-modelsllmsmllmsscenario-analysisscenario-generationvlmsworld-models

Roots-Automation/GutenOCR

Open-source tools for training and evaluating Vision Language Models for OCR

Python17317Updated just now

llmsmultigpuocrvllmvlm-ocrvlms

InternScience/OmniCaptioner

Official Repository of OmniCaptioner

Python16915Updated 10 months ago

caption-generationcaptioning-imagesdeepseek-r1multi-modalmulti-modal-deepseek-r1reasoning-modelsvlms

tencent-ailab/Penguin-VL

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders [Technical Report]

Jupyter Notebook1388Updated 3 days ago

vision-language-modelsvlmvlms

MCG-NJU/AWT

[NeurIPS 2024] AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation

Python1156Updated 1 year ago

clipcomputer-visionopen-set-recognitionsigliptransfer-learningvideo-understandingvlmszero-shot-learning

aim-uofa/SegAgent

[CVPR2025] SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories

Python923Updated 7 months ago

agentmllmssegment-anythingvlms

mbzuai-oryx/KITAB-Bench

[ACL 2025 🔥] A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding

Python664Updated 9 months ago

arabicbenchmarklayout-detectionocrpdf-to-texttable-detectionvlmsvqa

thubZ09/vision-language-model-research

Hub for researchers exploring VLMs and Multimodal Learning:)

625Updated 2 weeks ago

computer-visiondeep-learningmachine-learningmultimodal-aimultimodal-deep-learningmultimodal-large-language-modelsmultimodal-learningnlpresearchvision-languagevlms

foundation-multimodal-models/CAL

[NeurIPS'24] Official PyTorch Implementation of Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment

Python582Updated 1 year ago

contrastive-alignmentvlms

video-db/ocr-benchmark

Benchmarking Vision-Language Models on OCR tasks in Dynamic Video Environments

Python474Updated 1 year ago

arxivbenchmarkeasyocrocrrapidocrresearch-papervideodbvlm-ocrvlms

dimitrismallis/CAD-Assistant

Code for our ICCV 2025 paper "CAD-Assistant: Tool-Augmented VLLMs as Generic CAD Task Solvers."

Python475Updated 4 months ago

cadfreecadllmvlms

AakashKumarNain/nanoGPTJAX

Implementing scalable LLMs in pure JAX (no third-party libraries)

Python464Updated 2 days ago

jaxllmstransformervlms

Mamadou-Keita/VLM-DETECT

[ICASSP 2024] The official repo for Harnessing the Power of Large Vision Language Models for Synthetic Image Detection

Python342Updated 7 months ago

deepfake-detectiondiffusion-modelsllmstext-to-image-generationvlms

aperezr20/SurgLaVi

SurgLaVi: Official repository

Python273Updated 1 week ago

multimodal-surgical-modelssurgclipsurgical-data-sciencesurgical-vlmssurglavivlms

SrGrace/generative-ai-compass

A comprehensive guide to navigating the world of generative artificial intelligence!

266Updated 4 months ago

aicvdata-sciencedeep-learninggenaillmsmachine-learningnlpvlms

ShenzheZhu/JailDAM

[COLM 2025] JailDAM: Jailbreak Detection with Adaptive Memory for Vision-Language Model

Python260Updated 3 months ago

aiaisecurityvlms

song2yu/SIBench-VSR

This is a project on visual spatial reasoning tasks-SIBench

Python250Updated 2 months ago

benchmarkvisual-spatial-reasoningvlms

sethupavan12/Markdownify

Convert documents, images to high-quality Markdown using Vision LLMs. Built for RAG ingestion pipelines.

Python211Updated 2 months ago

data-ingestionmarkdownocrocr-pythonragvlms

Masoudjafaripour/nanochat-VLM

A minimal, hackable Vision-Language Model built on Karpathy’s nanochat — add image understanding and multimodal chat for under $200 in compute.

Python202Updated 2 weeks ago

finetuningllmllmsmultimodal-llmnanochatpytorchvision-language-tokenizervision-tokenizationvlmvlms

kyegomez/VLM-Mamba

We introduce VLM-Mamba, the first Vision-Language Model built entirely on State Space Models (SSMs), specifically leveraging the Mamba architecture.

Python141Updated 2 months ago

aiattentionlanguage-ssmmambamlpytorchssmstate-spacetransformersvision-language-modelvision-ssmvision-transformervlms

Melatonin-Amos/DLC-Detector-with-Language-Customization

这是我们工程学导论（ME1221）课程项目的版本管理仓库，本项目旨在实现一个基于CLIPs的支持语义客制化的智能养老摄像头模块的硬件支持性开发、后端VLM开发以及前端开发。技术上，我们使用大规模语义预训练的CLIP模型以及FG-CLIP2模型，采用ViTs作为视觉编码器，Transformers作为语义编码器，zero-shot地进行场景识别，从而实现高度个性化的智能功能。

Python140Updated 2 months ago

aiclipvlms

Page 1 of 4