"topic:wikipedia-scraper" — Search

A complete Python text analytics package that allows users to search for a Wikipedia article, scrape it, conduct basic text analytics and integrate it to a data pipeline without writing excessive code.

Python217Updated 2 days ago

text-analyticswikipediawikipedia-apiwikipedia-articlewikipedia-corpuswikipedia-scraperwikipedia-search

OlehOnyshchak/pyWikiMM

Collects a multimodal dataset of Wikipedia articles and their images

Python161Updated 10 months ago

data-cleaningdata-collectiondata-processingdatabasemultimodalmultimodal-datamultimodal-datasetsmultimodal-learningmultimodal-representationmultimodalitywikipediawikipedia-apiwikipedia-botwikipedia-corpuswikipedia-dumpwikipedia-entrieswikipedia-pagewikipedia-scraperwikipedia-searchwikipedia-viewer

moesalih/spacex.moesalih.com

SpaceX Launches 🚀 and Starlink Satellites 🛰

JavaScript168Updated 1 year ago

firebasegoogle-cloud-platformmustachenextjsserverlessspacexspacex-launchesstarlinkwikipediawikipedia-scraper

marian-code/wikipedia-music-tags

Music tagger with GUI that parses wikipedia for information. Can also download album art and lyrics.

Python152Updated 8 months ago

album-artconsole-applicationguilyrics-fetcherlyrics-searchmusic-information-retrievalmusic-taggermusic-taggingpyinstallerpyqt5pyside2python-3wikipedia-scraper

attogram/justrefs

Just Refs - extract just the references and related topics from any page on the English Wikipedia

PHP130Updated 6 months ago

attogram-projectdata-extractioninformation-extractionwikipediawikipedia-apiwikipedia-scraperwikipedia-viewer

ThiagoNelsi/wikipedia-to-document

This project collects Wikipedia articles from a search term entered by the user and formats the data into a .docx (Word Document) document with images related to each section of the collected article.

JavaScript113Updated 7 months ago

algorithmiaapiautomationdocxdocx-generatorfilipe-deschampsgoogle-cloud-platformgoogle-custom-searchibmibm-watsonmicrosoft-wordmicrosoft-word-automationopen-sourcerobotscrapingvideo-makerwikipediawikipedia-apiwikipedia-scraper

shanedrabing/taxopedia

Taxonomic trees (cladograms) from Wikipedia-scraped data.

Python101Updated 4 months ago

cladogramphylogenetic-treesphylogeneticstaxonomic-treestaxonomywikipediawikipedia-scraper

emreYbs/Wikipedia-Article-Summarizer

Wikipedia Article Summarizer a simple Python project based on NLP techniques

Jupyter Notebook92Updated 2 weeks ago

article-summarizationjupyterjupyter-notebookmachine-learningnatural-language-processingnlpnlp-machine-learningnltknltk-pythonpythonpython3summarizationwikipedia-scraper

oxylabs/web-scraping-php

A tutorial and code samples of web scraping with PHP

PHP93Updated 5 months ago

email-scraperemail-scraper-with-proxyphpscreen-scrapingurl-scraperweb-scrapingwebsite-crawlerwikipedia-scraper

kohjiaxuan/NLP-Model-for-Corpus-Similarity

A NLP algorithm I developed to determine the similarity or relation between two documents/Wikipedia articles. Inspired by the cosine similarity algorithm and built from WordNet.

Python91Updated 2 years ago

Rustem/textnano

Minimal text dataset builder for ML students - zero dependencies, simple API, auto deduplication

Python61Updated 4 months ago

data-cleaningdataset-buildereducationalmachine-learningnlppythontext-extractiontext-processingweb-scrapingwikipedia-scraper

mynlp/wikilex

Wikipedia Entities Lexicon Extractor

Python61Updated 1 year ago

disambiguationentity-extractionlexiconwikipedia-databasewikipedia-scraper

donomii/wikipedia2geojson

Extracts geodata from a wikipedia dump

Go50Updated 1 year ago

conversionconvertergeodatageojsongeotagged-wikipedia-articlesgeotaggingjsonmappingwikipediawikipedia-dumpwikipedia-scraper

ammarfaizi2/wikipedia_scraper

Wikipedia Scraper written in PHP

PHP41Updated 4 years ago

curlgrabbergrabbing-contentphp-curlscarpescraperwikiwikipediawikipedia-botwikipedia-scraper

mrmsds/wikipedia-infoboxes

Query and processing code to support the publication "Wikipedia curation and the US-EPA CompTox Chemicals Dashboard" (Sinclair et al. 2022)

Java41Updated 6 months ago

cheminformaticschemistrycomptoxdataepafair-datainchi-keyinchikeyopen-datasmileswikipediawikipedia-apiwikipedia-scraper

sinjoysaha/Disney-Movies-Wiki-WebScraper

Web Scraping Wikipedia for Disney Movies to create a Disney Movies dataset and then cleaning the data to perform further Data Analysis using the cleaned JSON

Jupyter Notebook40Updated 1 year ago

beautifulsoupbeautifulsoup4data-cleaningdata-sciencedatasetdataset-creationdataset-generationjsonjupyterjupyter-notebookpythonweb-scraperweb-scrapingwebscraperwebscrapingwikipediawikipedia-scraper

Efeckc17/EduCollector

EduCollector is a modern PySide6 desktop application that provides seamless access to Wikipedia content in multiple languages. Features include multi-language support, article saving, offline reading, and a sleek dark theme interface. Perfect for students, researchers, and knowledge enthusiasts.

Python40Updated 7 months ago

educational-softwaremultilanguage-supportopen-sourceopensourcepyside6pyside6-apppythonwikipediawikipedia-scraperwikipedia-viewer

orange-soda/scrapy-wikipedia

维基百科中文网历史事件爬取Python实现，并通过LaTeX导出为PDF

TeX41Updated 2 years ago

pythonwikipedia-scraper

GeorgeDavila/WikipediaScrapingWikiAPI

Scraping Wikipedia using the python wrapper of Wikipedia's WikiMedia API

Jupyter Notebook30Updated 1 year ago

nlpnlp-machine-learningscraperwikipediawikipedia-apiwikipedia-scraper

zaataylor/wikiref

A web extension that makes extracting, editing, and exporting Wikipedia references easy!

JavaScript30Updated 8 months ago

extensionsfirefox-webextensionjsonwikipediawikipedia-scraper

milosmladenovic5/football_clubs_logo_scraper

Scraping logos of world football clubs from wikipedia

Python31Updated 2 years ago

beautifulsouppython-web-crawlerweb-scrapingwikipedia-scraper

Harsh-2909/Wikipedia-Web-Scraper

A Wikipedia Web Scraper used to download all the text information in a .txt file.

Python32Updated 1 year ago

beautifulsoupbeautifulsoup4pythonpython3webscraperwebscrapingwikipediawikipedia-scraper

Omanshu209/ExploreWiki

This is a Python - based application that allows the user to search for information and open URLs.

kvlang30Updated 2 years ago

kivymdlangchainlangchain-pythonpython3search-enginewebbrowserwikipediawikipedia-apiwikipedia-scraper

lorenzoranucci/sentimantic

Linked Data Knowledge Base Population (KBP) framework built on top of Snorkel. The default configuration uses Wikipedia as text corpus and DBpedia as target.

Python30Updated 1 year ago

distant-supervisiondockerinformation-extractionknowledge-base-constructionknowledge-base-populationlinked-datalinked-data-quality-assessmentnatural-language-processingnlprelation-extractionweak-supervisionweakly-supervised-learningwikipedia-scraper

ankitssh/Wikipedia-Scraper-Bot

A wikipedia scraper bot made in python.

Python32Updated 2 years ago

scraperwikipedia-scraper

Page 1 of 5