"topic:corpus-builder" — Search | GitHunt

Repositories Developers Collections

© 2026 GitHunt · tansuasici

23 results for “topic:corpus-builder”

adbar/trafilatura

Python & Command-line tool to gather text and metadata on the Web: Crawling, scraping, extraction, output as CSV, JSON, HTML, MD, TXT, XML

Python5.6k348Updated 6 months ago

article-extractorcorpus-buildercorpus-toolscrawlerhtml-to-markdownhtml2textllmnews-aggregatornews-crawlernlpragreadabilityrss-feedscrapingteitext-cleaningtext-extractiontext-miningtext-preprocessingweb-scraping

google/corpuscrawler

Crawler for linguistic corpora

Python21353Updated 7 months ago

corpus-buildercorpus-linguisticscrawlinglinguisticsminority-language

praaline/Praaline

Praaline is an open-source system to manage, annotate, visualise and analyse spoken language corpora

C305Updated 3 years ago

annotationscorpuscorpus-buildercorpus-linguisticscorpus-toolslinguisticsspeech-analysisspeech-processingspoken-language-processingvisualisation

carlfm01/librivox-tools

Collector and speech cutter for librivox audiobooks

C#241Updated 3 years ago

corpus-buildercorpus-toolsdata-collectorlibrivoxspeech-to-text

uma-pi1/OPIEC-pipeline

No description provided.

Java142Updated 4 years ago

big-databigdatacorpus-buildercorpus-datacorpus-generatorcorpus-linguisticscorpus-processingcorpus-toolsinformation-extractionnatural-language-processingnatural-language-understandingnlpnlp-apisnlp-datasetsnlp-resourcesopen-information-extractiontext-processingwikiwikipediawikipedia-corpus

dohliam/ebook-corpus

Ebook Corpus - A parser and extractor for electronic books

Ruby92Updated 1 month ago

corpuscorpus-buildercorpus-linguisticsebook-parsingebooksepubfb2mobi

Aditya-ds-1806/dictpress-tts

TTS plugin for dictpress

Go72Updated 3 months ago

corpus-builderdictpresspluginttsvoice

AndyTheFactory/article-extraction-dataset

Article title, authors, date and body extraction dataset.

HTML71Updated 1 year ago

article-extractorcorpuscorpus-buildercorpus-toolsdatasetdatasetshtml-to-markdownhtml2textnewsnews-aggregatornews-crawlerreadabilityscrapingscraping-websitestext-cleaningtext-extractiontext-miningtext-preprocessingweb-scraping

thecsw/katya-dev

Katya or The Liberated Corpus a text corpus that allows you to request and scrape any web resource!

Go60Updated 2 years ago

corpuscorpus-analysiscorpus-buildercorpus-generatorcorpus-linguisticscorpus-processingrussianrussian-literaturetaggertext-corpus

jhlopesalves/CorpusAid

Automated text preprocessing pipeline for large corpora. Features customizable filters for diacritics, stop words, punctuation, and regex.

Python20Updated 5 months ago

corpus-buildercorpus-linguisticscorpus-processingcorpus-toolsdata-cleaningdata-cleaning-automationnatural-language-processingpythonregextext-preprocessing

FerreroJeremy/Plagiarized-Corpus-Generator

A corpus builder for evaluation of plagiarism detection tools

PHP20Updated 9 years ago

corpus-buildercorpus-generatorplagiarism

writecrow/crow_backend

The canonical resources to build the backend for a corpus/repository management framework for Crow, the Corpus and Repository of Writing

PHP10Updated 3 weeks ago

apibackendcorpuscorpus-buildercorpus-generatorcorpus-linguisticsnatural-language-processing

CristinaGHolgado/vikitext

Extract text from Vikidia/Wikipedia articles [fr]

Python10Updated 4 years ago

corpuscorpus-builderfrench-nlpreadabilitytext-simplificationvikidiawikipedia-scraper

ARAS-Workspace/eu-ai-act-rag

EU AI Act RAG — End-to-end retrieval-augmented generation pipeline: SPARQL corpus builder, Cloudflare Workers AI backend, and Streamlit playground for querying Regulation (EU) 2024/1689

Python10Updated 3 weeks ago

ai-governanceautoragcellarcloudflare-aicloudflare-workerscorpus-builderembeddingseu-ai-acteur-lexformexlegal-techlinked-datallmpythonragretrieval-augmented-generationsemantic-websparqlstreamlitvector-search

tubone24/askfm-qa-crawler

Crawl Ask.fm QA lists and create corpus for ML.

Python10Updated 2 years ago

askfmchromedrivercorpus-buildercrawlerselenium

writecrow/crow_frontend

The user interface for the Corpus & Repository of Writing, built in Angular

TypeScript10Updated 1 month ago

angularcorporacorpuscorpus-buildercorpus-linguisticsnatural-language-processing

sorinmarti/fruechtekorb

This is a text corpus management system for the german linguistic department of the university of Basel.

PHP00Updated 5 years ago

corpuscorpus-buildercorpus-linguisticslinguistics

adpaczek/chatbot

Chatbot in Polish language, trained on movie subtitles collected using web scraping, based on Transformer architecture.

Jupyter Notebook00Updated 1 year ago

chatbotcorpus-buildernlppolish-nlutransformerweb-scraping

c0ntradicti0n/CorpusCookApp

App and Scripts working with the corpus-builder CorpusCook, to have a corpus updated with corrected wrong predictions

Python00Updated 6 years ago

ampcorpus-buildercorpus-linguisticskivy-applicationnlp-machine-learningpython3twisted

cw-l/eml-contrib-ng

CLI tool to redact and publish spam/phishing emails as a public research corpus.

Python00Updated 1 week ago

cli-toolcorpus-builderemail-securityeml-filespii-redactionpython3security-research

IDS-Mannheim/Wikipedia-Corpus-Builder

Builds Wikipedia corpora in I5 (a TEI-based format)

Java00Updated 8 months ago

corpus-builderteiwikipediawikipedia-corpusxml

binayachaudari/Corpus-Development-Software

Corpus Development Software for Machine Translation

JavaScript00Updated 1 year ago

corpus-buildermachine-learningmachine-translation

cikay/kurdish_scrapy

A Scrapy package based web scraper for collecting Kurdish text data from websites. The tool recursively crawls specified domains, extracts article content using Trafilatura, and filters results by language using Facebook's FastText language identification model.

Python00Updated 2 days ago

article-extractorcorpus-buildercorpus-toolscrawlercrawlinghtml-to-textkurdishkurdish-kurmanjikurmanjillmnews-crawlernlpscrapingscrapytext-cleaningtext-extractiontext-extractortext-preprocessingweb-scraperweb-scraping