"topic:automatic-speech-recognition" — Search

392 results for “topic:automatic-speech-recognition”

wenet-e2e/wenet

Production First and Production Ready End-to-End Speech Recognition Toolkit

Python5.0k1.2kUpdated 17 hours ago

asrautomatic-speech-recognitionconformere2e-modelsproduction-readypytorchspeech-recognitiontransformerwhisper

ahmetoner/whisper-asr-webservice

OpenAI Whisper ASR Webservice API

Python3.2k567Updated 1 day ago

asrautomatic-speech-recognitiondockeropenai-whisperspeechspeech-recognitionspeech-to-text

zzw922cn/awesome-speech-recognition-speech-synthesis-papers

Automatic Speech Recognition (ASR), Speaker Verification, Speech Synthesis, Text-to-Speech (TTS), Language Modelling, Singing Voice Synthesis (SVS), Voice Conversion (VC)

3.1k514Updated 9 hours ago

acoustic-modelattention-mechanismautomatic-speech-recognitioncnndiffusion-modelsdnnlanguage-modelneural-networkpapersrecognition-synthesisrnnroadmapseq2seqsinging-voice-synthesisspeaker-verificationspeech-recognitionspeech-synthesistimit-datasetttsvoice-conversion

zzw922cn/Automatic_Speech_Recognition

End-to-end Automatic Speech Recognition for Madarian and English in Tensorflow

Python2.8k535Updated 14 hours ago

audioautomatic-speech-recognitionchinese-speech-recognitioncnndata-preprocessingdeep-learningend-to-endevaluationfeature-vectorlayer-normalizationlstmpaperphonemesrnnrnn-encoder-decoderspeech-recognitiontensorflowtimit-dataset

coqui-ai/STT

🐸STT - The deep learning toolkit for Speech-to-Text. Training and deploying STT models has never been so easy.

C++2.6k302Updated 4 days ago

asrautomatic-speech-recognitiondeep-learningspeech-recognitionspeech-recognition-apispeech-recognizerspeech-to-textstttensorflowvoice-recognition

TEN-framework/ten-vad

Voice Activity Detector (VAD) : low-latency, high-performance and lightweight

C2.0k160Updated 12 hours ago

audioautomatic-speech-recognitionconversational-aireal-timesilero-vadspeechspeech-processingvadvoice-activity-detectionvoice-agentvoice-commandsvoice-recognition

FireRedTeam/FireRedASR

Open-source industrial-grade ASR models supporting Mandarin, Chinese dialects and English, achieving a new SOTA on public Mandarin ASR benchmarks, while also offering outstanding singing lyrics recognition capability.

Python1.8k158Updated 1 day ago

asrautomatic-speech-recognitionconformerindustrial-gradellmmultimodal-llmopen-sourcespeech-recognitionspeechllmtransformer

FluidInference/FluidAudio

Frontier CoreML audio models in your apps — text-to-speech, speech-to-text, voice activity detection, and speaker diarization. In Swift, powered by SOTA open source.

Swift1.6k204Updated 7 hours ago

aneasraudioautomatic-speech-recognitionavfoundationcoremliosmacosnvidiaparakeetreal-timespeaker-diarizationspeaker-embeddingspeaker-identificationspeaker-recognitionspeech-to-textswiftvadvoice-activity-detection

kakaobrain/pororoArchived

PORORO: Platform Of neuRal mOdels for natuRal language prOcessing

Python1.3k222Updated 1 day ago

automatic-speech-recognitiondeep-learningnatural-language-processingneural-modelsspeech-synthesis

TensorSpeech/TensorFlowASR

:zap: TensorFlowASR: Almost State-of-the-art Automatic Speech Recognition in Tensorflow 2. Supported languages that can use characters or subwords

Python1.0k240Updated 3 days ago

automatic-speech-recognitionconformercontextnetctcdeepspeech2end2endjasperrnn-transducerspeech-recognitionspeech-to-textstreaming-transducersubword-speech-recognitiontensorflowtensorflow2tflitetflite-convertiontflite-model

jitsi/jiwer

Evaluate your speech-to-text system with similarity measures such as word error rate (WER)

Python862110Updated 3 days ago

automatic-speech-recognitionevaluation-metricspython3speech-to-textwerword-error-rate

snakers4/open_sttArchived

Open STT

Python81887Updated 1 month ago

asrautomatic-speech-recognitiondatasetrussianspeech-to-textstt

EmulationAI/awesome-large-audio-models

Collection of resources on the applications of Large Language Models (LLMs) in Audio AI.

72748Updated 10 hours ago

audio-aiaudio-processingautomatic-speech-recognitionfoundational-modelslarge-audio-modelslarge-language-model-speechlarge-language-modelsmusic-aimusic-information-retrievalmusic-processingspeech-aispeech-llmsspeech-to-text

shirayu/whisperingArchived

Streaming transcriber with whisper

Python69648Updated 1 week ago

automatic-speech-recognitionwhisper

Picovoice/cheetah

On-device streaming speech-to-text engine powered by deep learning

Python66176Updated 7 hours ago

asrautomatic-speech-recognitiononline-speech-recognitionspeech-recognitionspeech-to-textstreaming-speech-to-textstttranscriptionvoice-recognition

vilassn/whisper_android

Offline Speech Recognition with OpenAI Whisper and TensorFlow Lite for Android

C++627107Updated 1 day ago

androidasrautomatic-speech-recognitionembeddedmobileofflineopenaispeech-recognitiontensorflowtensorflowlitetext-to-speechtexttospeechtflitetranscribetranscriptiontranslationttswhisper

hirofumi0810/neural_sp

End-to-end ASR/LM implementation with PyTorch

Python594136Updated 2 months ago

asrattentionattention-mechanismautomatic-speech-recognitionctclanguage-modellanguage-modelingpytorchrnn-transducerseq2seqsequence-to-sequencespeechspeech-recognitionstreamingtransformertransformer-xl

YoavRamon/awesome-kaldi

This is a list of features, scripts, blogs and resources for better using Kaldi ( http://kaldi-asr.org/ )

53784Updated 1 month ago

automatic-speech-recognitionawesome-listkaldikaldi-asrspeechspeech-recognitionspeech-to-text

Z-

Z-yq/TensorflowASR

一个执着于让CPU\端侧-Model逼近GPU-Model性能的项目，CPU上的实时率(RTF)小于0.1

Python474114Updated 2 months ago

automatic-speech-recognitionbertcppctclisten-attend-and-spellstate-of-the-arttensorflow-cpptensorflow2transducerstransformer

Picovoice/leopard

On-device speech-to-text engine powered by deep learning

Python47329Updated 5 hours ago

asrautomatic-speech-recognitionon-devicespeech-recognitionspeech-to-textstttranscriptionvoice-recognitionvoice-to-text

jonatasgrosman/huggingsound

HuggingSound: A toolkit for speech-related tasks based on Hugging Face's tools

Python47047Updated 11 hours ago

asraudioautomatic-speech-recognitionspeechspeech-recognitionspeech-to-texttransformers

double22a/speech_dataset

The dataset of Speech Recognition

45381Updated 1 week ago

asraudioautomatic-speech-recognitiondatasetdeep-learningdeep-neural-networksspeechspeech-diarizationspeech-enhancementspeech-recognitionspeech-segmentationspeech-separationspeech-synthesisspeech-to-textspeech-translationtext-to-speechttsvoice-conversionwav

ArthurFDLR/whisper-youtube

🔉 Youtube Videos Transcription with OpenAI's Whisper

Jupyter Notebook414116Updated 1 week ago

automatic-speech-recognitioncolab-notebookspeech-recognitionspeech-to-texttransformerwhisperyoutube

leduckhai/MultiMed

[LREC-COLING 2024 (Oral), Interspeech 2024 (Oral), NAACL 2025, ACL 2025, EMNLP 2025] A Series of Multilingual Multitask Medical Speech Processing

Python37436Updated 3 weeks ago

artificial-intelligenceautomatic-speech-recognitiondeep-learningmachine-learningnamed-entity-recognitionnatural-language-processingspeech-summarization

FireRedTeam/FireRedASR2S

A SOTA Industrial-Grade All-in-One ASR system with ASR, VAD, LID, and Punc modules. FireRedASR2 supports Chinese (Mandarin, 20+ dialects/accents), English, code-switching, and both speech and singing ASR. FireRedVAD supports speech/singing/music in 100+ langs. FireRedLID supports 100+ langs and 20+ zh dialects. FireRedPunc supports zh and en.

Python34218Updated 8 hours ago

asrasr-pipelineaudio-event-classificationaudio-event-detectionautomatic-speech-recognitionindustrial-gradelanguage-identificationlidllmmultimodal-llmopen-sourcepunctuation-predictionpunctuation-restorationsotaspeech-recognitionspeechllmvadvoice-activity-detection

hirofumi0810/tensorflow_end2end_speech_recognition

End-to-End speech recognition implementation base on TensorFlow (CTC, Attention, and MTL training)

Python314119Updated 3 weeks ago

asrattention-mechanismautomatic-speech-recognitionbeam-searchcsjctcend-to-endend-to-end-learningjoint-ctc-attentionlibrispeechspeech-recognitionspeech-to-texttensorflowtimittimit-dataset

m3hrdadfi/soxan

Wav2Vec for speech recognition, classification, and audio classification

Jupyter Notebook27338Updated 3 days ago

automatic-speech-recognitionemotion-recognitionspeech-classificationspeech-emotion-recognitionspeech-recognition

NavodPeiris/speechlib

speechlib is a library that can do speaker diarization, transcription and speaker recognition on an audio file to create transcripts with actual speaker names.

Python25225Updated 3 weeks ago

aiautomatic-speech-recognitionfaster-whisperspeaker-diarizationspeaker-recognitionspeaker-verificationtranscriptionwhisper-ai

smeetrs/deep_avsr

A PyTorch implementation of the Deep Audio-Visual Speech Recognition paper.

Python24342Updated 6 days ago

audio-visual-speech-recognitionautomatic-speech-recognitionlip-readingspeech-recognitionspeech-to-textvisual-speech-recognition

Frikallo/parakeet.cpp

Ultra fast and portable Parakeet implementation for on-device inference in C++ using Axiom with MPS+Unified Memory

C++2427Updated 6 hours ago

asrautomatic-speech-recognitionaxiomnvidiaparakeetspeaker-diarizationspeechspeech-recognitionspeech-to-text

Page 1 of 14