"topic:image-text" — Search

44 results for “topic:image-text”

Code for ALBEF: a new vision-language pre-training method

contrastive-learningimage-textrepresentation-learningvision-and-languageweakly-supervised-learning

PostBot 内容同步助手一款开源的多平台内容同步分发生产力工具。支持将文章、笔记、动态、图片、视频、音频等内容，一键同步发布至主流媒体平台。覆盖微信/微博/今日头条/小红书/知乎/百家号/企鹅号/视频号/抖音/快手/哔哩哔哩（B站）等国内主流媒体平台，可轻松扩展兼容 X（Twitter）、Facebook、Instagram、TikTok、YouTube、LinkedIn 等国际媒体平台。

TypeScript68793Updated 5 hours ago

articleaudioautomationblogcmscontenthtmlimage-textmarkdownmarketingmarketing-automationmediamultiplatformnotepodcastsocial-mediavideo

Sense-GVT/DeCLIP

Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm

Python67532Updated 3 weeks ago

big-modelclipimage-textmulti-modelself-supervisedvision-language-pretrainingzero-shot

google/imageinwordsArchived

Data release for the ImageInWords (IIW) paper.

JavaScript2277Updated 1 week ago

datasetdataset-generationdetailed-annotationsdetailed-descriptionsevaluationhuman-annotationi2timage-captioningimage-descriptionsimage-textimage-to-textt2i

miccunifi/QualiCLIP

Quality-Aware Image-Text Alignment for Opinion-Unaware Image Quality Assessment

Python1263Updated 3 weeks ago

biqablind-image-quality-assessmentclipcomputer-visiondeep-learningimage-degradationimage-processingimage-qualityimage-quality-assessmentimage-textiqalow-level-visionno-reference-image-quality-assessmentnr-iqaopinion-unawareopinion-unaware-nr-iqaranking-lossself-supervised-learningvision-language

X-

X-PLUG/mPLUG

mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections. (EMNLP 2022)

Python979Updated 1 week ago

image-captioningimage-textimage-text-retrievalmultimodalpretrainingpytorchtransformervisual-languagevqa

labyrinth7x/Deep-Cross-Modal-Projection-Learning-for-Image-Text-Matching

Deep Cross-Modal Projection Learning for Image-Text Matching

Python7721Updated 1 month ago

image-text

glami/glami-1m

The largest multilingual image-text classification dataset. It contains fashion products.

Jupyter Notebook777Updated 2 weeks ago

classificationcomputer-visiondatasetdeep-learningfashionimage-classificationimage-textimage-text-classificationimage-to-textmulti-modal-deep-learningmultilingualmultilingual-image-text-classificationmultimodalnatural-language-processingtext-classificationtext-to-image-generation

w1oves/hqclip

[ICCV 2025] HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets

642Updated 1 day ago

clipimage-textlvlmmllm

awsaf49/flickr-dataset

Download flickr8k, flickr30k image caption datasets

423Updated 6 days ago

captioning-imagesclipdatasetflickrflickr30kflickr8kimageimage-textsiglip

TheoCoombes/crawlingathome

A client library for LAION's effort to filter CommonCrawl with CLIP, building a large scale image-text dataset.

Python327Updated 3 months ago

clipdall-edatasetdataset-generationimage-textmachine-learning

zhangming8/ocr_algo_server

ocr文字识别算法服务

C++237Updated 9 months ago

image-textocrpythontext-recognize

antonlukin/poster-editor

Wrapper for PHP's GD Library for easy image manipulation. Support for scaling multi-line text, shapes, filters and smart resize.

PHP202Updated 1 year ago

composerimage-processingimage-textinterventionphpphp-classphp-gdphp-imagephp-libraryposter-editor

HuangRunHua/LiveTextWithImage

WWDC22: Enabling Live Text interactions with images in SwiftUI

Swift151Updated 6 months ago

image-processingimage-textlive-textswiftswiftuiswiftui-demoswiftui-examplewwdcwwdc22

zabir-nabil/imagebert-keras

Keras implementation of ImageBERT from Microsoft

142Updated 4 years ago

image-textimagebertkeras

TheoCoombes/crawlingathome-server

A server powering LAION's effort to filter CommonCrawl with CLIP, building a large scale image-text dataset.

Python134Updated 3 months ago

clipdall-edatasetdataset-generationimage-textmachine-learning

Thisisus7/ING-VP

An Interactive Game-based Vision Planning benchmark

Python120Updated 1 month ago

benchmarkgameimage-textllmlmmmllmmultimodal

JIA-Lab-research/TagCLIP

No description provided.

Python101Updated 3 months ago

clipimage-textsegmentationzero-shot

CharlesYang030/PolCLIP

PolCLIP: A Unified Image-Text Word Sense Disambiguation Model via Generating Multimodal Complementary Representations

Jupyter Notebook80Updated 2 months ago

image-textmultimodal-wsd

reshalfahsi/image-captioning-mobilenet-llama3

Image Captioning With MobileNet-LLaMA 3

Jupyter Notebook60Updated 7 months ago

cnnflickr8k-datasetgrouped-query-attentionimage-captioningimage-textkv-cachellama3mobilenetv3nlppytorchpytorch-lightningrms-normrotary-position-embeddingtransformer

fatemeh-mohseni-AI/most-repeated-vocabulary-IELTS

This project is a FastAPI-based web application designed to analyze C a m b r i d g e I E L T S P D F s ( B o o k s 1 − 18 ) for the most and least repeated words. It can handle both regular text-based PDFs and scanned image-based PDFs by converting them to images and extracting text using OCR (Optical Character Recognition).

Python51Updated 1 year ago

fast-apiieltsimage-text

leeyunjai/image2text

caption generator using lavis and argostranslate

Python41Updated 2 years ago

blip2captioncaption-generationcaption-generatorcaptioning-imagescaptionsimage-analysisimage-textimg2txt

dinhanhx/VisualRoBERTa

The first public Vietnamese visual linguistic foundation model(s)

Python32Updated 1 year ago

image-captioningimage-textpythonpython-3python3vietnamese-nlpvisual-linguisticvisual-question-answering

dngo-io/cover-creator

Write texts on images with php