"topic:multilingual-nlp" — Search

119 results for “topic:multilingual-nlp”

MTEB: Massive Text Embedding Benchmark

benchmarkbitext-miningclusteringinformation-retrievallow-resource-nlpmtebmultilingual-nlpmultimodalneural-searchrerankingretrievalsbertsemantic-searchsentence-transformersststext-classificationtext-embedding

bigscience-workshop/xmtf

Crosslingual Generalization through Multitask Finetuning

Jupyter Notebook53743Updated 1 year ago

bloombloomzinstruction-tuninglanguage-modelslarge-language-modelsmt0multilingual-nlpmultitask-learningt5zero-shot-learning

DmitryRyumin/EMNLP-2023-Papers

EMNLP 2023 Papers: Explore cutting-edge research from EMNLP 2023, the premier conference for advancing empirical methods in natural language processing. Stay updated on the latest in machine learning, deep learning, and natural language processing with code included. :star: support NLP!

Python1129Updated 1 year ago

bertcomputational-linguisticsemnlpemnlp2023gptlanguage-modelsllmsmachine-learningmachine-translationmultilingual-nlpnamed-entity-recognitionnatural-language-processingnernlpnlp-applicationssentiment-analysissyntax-and-semanticstext-miningtransformersword-embeddings

cisnlp/Glot500

Glot500: Scaling Multilingual Corpora and Language Models to 500 Languages -- ACL 2023

Python1064Updated 1 year ago

acldatasetglotglot500multilingualmultilingual-modelsmultilingual-nlpnatural-language-processingnlpxlmxlm-r

FSoft-AI4Code/TheVault

[EMNLP 2023] The Vault: A Comprehensive Multilingual Dataset for Advancing Code Understanding and Generation

Jupyter Notebook1059Updated 1 year ago

ai4codedatasetmultilingual-nlp

shijie-wu/crosslingual-nlp

This repo supports various cross-lingual transfer learning & multilingual NLP models.

Python926Updated 2 years ago

crosslingual-transfermultilingual-nlpnatural-language-processing

epfl-dlab/llm-latent-language

Repo accompanying our paper "Do Llamas Work in English? On the Latent Language of Multilingual Transformers".

Jupyter Notebook8018Updated 2 years ago

llama2llmmechanistic-interpretabilitymultilingual-nlp

csebuetnlp/CrossSum

This repository contains the code, data, and models of the paper titled "CrossSum: Beyond English-Centric Cross-Lingual Summarization for 1,500+ Language Pairs" published in Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL’23), July 9-14, 2023.

Python537Updated 1 year ago

cross-lingual-summarizationcross-lingual-transfermultilingual-nlp

techwolf-ai/workrb

WorkRB: Work Research Benchmark

Python355Updated 3 days ago

benchmarkjob-matchingjob-normalizationjob-to-skillmultilingual-nlprankingsemantic-similarityskill-extractionskill-matchingskill-normalizationskill-to-jobtext-classificationwork-domainworkbenchworkbench-evalworkerbeeworkrbworkrbe

ceferisbarov/TUMLU

TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages

Python251Updated 1 year ago

llmsmultilingual-nlpnlp

kidist-amde/amharic-ir-benchmarks

Official codebase for the ACL 2025 Findings paper: Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval.

Jupyter Notebook206Updated 7 months ago

academic-benchmarkamharic-corpusamharic-languageamharic-nlpbertbm25colbertdense-retrievalhuggingface-transformersinformation-retrievallow-resource-nlpmrrmultilingual-nlpndcgpassage-retrievalretrieval-evaluationrobertatext-embedding

BatsResearch/LexC-Gen

Generate synthetic labeled data for extremely low-resource languages using bilingual lexicons.

Python195Updated 1 year ago

lexicon-basedllmlow-resource-languagesmultilingualmultilingual-nlpsentiment-analysissynthetic-datasynthetic-dataset-generationtopic-modeling

swiss-ai/parity-aware-bpe

Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization [arXiv 2025]

Python186Updated 3 months ago

bpellmsmultilingual-nlpmultilingual-tokenizationtokenization

BatsResearch/cross-lingual-detox

Code for "Preference Tuning For Toxicity Mitigation Generalizes Across Languages." Paper accepted at Findings of EMNLP 2024

Jupyter Notebook180Updated 11 months ago

ai-safetycross-lingual-transfergeneralizationmechanistic-interpretabilitymultilingual-nlpnlp

swaggy66/M-ABSA

M-ABSA: A Multilingual Dataset for Aspect-Based Sentiment Analysis

Python145Updated 3 months ago

multilingualmultilingual-absamultilingual-nlp

neulab/CulturalGround

This repository provides the official resources for EMNLP 2025 Paper Grounding Multilingual Multimodal LLMs With Cultural Knowledge

Python122Updated 5 months ago

machine-learningmultilingual-nlpmultimodalnlpvision-language-modelvisual-question-answeringvlmsvqa

cisnlp/MEXA

🔍 Multilingual Evaluation of English-Centric LLMs via Cross-Lingual Alignment

Python112Updated 11 months ago

cross-lingualdecoder-onlyembeddingsevaluationevaluation-metricslarge-language-modelsmultilingualmultilingual-nlp

cambridgeltl/prompt4bli

On Bilingual Lexicon Induction with Large Language Models (EMNLP 2023). Keywords: Bilingual Lexicon Induction, Word Translation, Large Language Models, LLMs.

Python112Updated 1 year ago

bilingual-dictionary-inductionbilingual-lexicon-extractionbilingual-lexicon-inductionfew-shot-learningin-context-learninglarge-language-modelsllamallmslow-resource-machine-translationmachine-translationmt5multilingual-modelsmultilingual-nlppromptprompt-engineeringpromptingpromptspytorchword-translationzero-shot-learning

mobassir94/Multilingual-NLP-for-Islamic-Theology

Cross Lingual Language models for making search engines for Holy Quran and Sahih Hadiths

Jupyter Notebook100Updated 2 years ago

ai-for-goodcross-lingual-embeddingscross-lingual-transferdata-drivendata-sciencedeep-learningmultilingual-nlp

AikyamLab/clinic

Codebase for CLINIC, a multilingual trustworthiness benchmark for Healthcare

Python91Updated 1 month ago

benchmarkfarinesshallucinationhealthcare-aillms-benchmarkingmultilingualmultilingual-modelsmultilingual-nlpprivacysafetytrustworthy-ai

longxudou/multispider

MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic Parsing

Python93Updated 2 years ago

french-languagegerman-languagejapanese-languagemultilingualmultilingual-nlpnatural-language-processingsemantic-parsingspanish-languagetext-to-sql

negar-foroutan/multiLMs-lang-neutral-subnets

[EMNLP 2022] Discovering Language-neutral Sub-networks in Multilingual Language Models.

Python81Updated 1 year ago

cross-lingual-transferlottery-ticket-hypothesismbertmt5multilingual-language-modelsmultilingual-nlp

ramisa2108/Bangla-Complex-Named-Entity-Recognition-Challenge

Winning Solution for the Bangla Complex Named Entity Recognition Challenge - BDOSN NLP Hackathon 2023

Jupyter Notebook70Updated 2 years ago

deep-learningmachine-learningmultilingual-nlpnamed-entity-recognitionnlp

Aniezka/xfact-fever

Official repository of FEVER@ACL 2025 paper "When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification"

70Updated 7 months ago

claim-verificationllmmultilingual-nlppeft-fine-tuning-llm

epfl-nlp/ConLID

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification [EACL - 2026]

Python60Updated 5 months ago

language-identificationlow-resource-languagesmultilingual-language-modelsmultilingual-nlp

AikyamLab/cure-med

CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

Python61Updated 1 month ago

code-switchingcurriculum-learninglarge-reasoning-modelsllm-reasoningllmsmedical-large-language-modelsmedical-llmsmultilingual-modelsmultilingual-nlp

MaLA-LM/mala-500

MaLA-500: Massive Language Adaptation of Large Language Models

Python50Updated 1 year ago

large-language-modelsmultilingual-nlp

aditi184/MultilingualQA

Chaii (Challenge in AI for India) Multilingual QnA - Google Research India

Jupyter Notebook50Updated 4 years ago

deep-learninghindimultilingual-nlpnatural-language-processingnlutamil

s4um1l/aya-cross-lingual-probe

Mechanistic interpretability of cross-lingual concept representations in Tiny Aya — rise, peak, collapse.

Python50Updated 3 weeks ago

activation-analysiscoherecross-linguallanguage-routingmechanistic-interpretabilitymultilingual-nlptiny-ayatransformers

ProMeText/Aquilign

AQUILIGN is a multilingual alignment and collation tool for 📜 medieval texts. It uses ✂️ clause-level segmentation and 🔗 contextual alignment based on BERT models, with applications in 🌍 historical linguistics, 📖 philology, and 🤖 premodern NLP.

Python54Updated 2 weeks ago

alignmentcollationdigital-humanitiesdigital-philologymedieval-textsmultilingual-nlpnlp-machine-learningtext-alignment

Page 1 of 4