"topic:data-lakehouse" — Search

116 results for “topic:data-lakehouse”

Open-source Snowflake & Fivetran alternative, with Postgres compatibility.

analyticsdata-lakehousedata-movementdata-warehouseduckdbicebergolapparquetpostgresqlzero-etlzero-pipeline

DataWithBaraa/sql-data-warehouse-project

A comprehensive guide to building a modern data warehouse with SQL Server, including ETL processes, data modeling, and analytics.

TSQL640517Updated 11 months ago

data-analysisdata-analyticsdata-cleaningdata-engineeringdata-lakehousedata-sciencedata-warehousedata-warehousingdatalakedatasciencedatawarehousedatawarehousingetletl-jobetl-pipelinemedallion-architecturesqlsql-querysql-serversqlserver

pracdata/awesome-open-source-data-engineering

A curated list of open source tools used in analytics platforms and data engineering ecosystem

44753Updated 1 year ago

analyticsawesomeawesome-listdatadata-analyticsdata-engineeringdata-integrationdata-lakehousedata-pipelinedata-platformdata-storagedata-warehousedatabasedatalakeetllakehousemlopsobservabilityself-hostedworkflow-engine

DataWithBaraa/databricks_bootcamp_2026

End-to-end Data Lakehouse project built on Databricks, following the Medallion Architecture (Bronze, Silver, Gold). Covers real-world data engineering and analytics workflows using Spark, PySpark, SQL, Delta Lake, and Unity Catalog. Designed for learning, portfolio building, and job interviews.

Jupyter Notebook293140Updated 2 months ago

aiapache-sparkdata-analyticsdata-engineeringdata-engineering-projectdata-lakehousedata-pipelinedatabricksetllakehousemedallion-architectureprotfolio-projectpysparkpythonsparkspark-sqlunity-catalog

laminlabs/lamindb

Open-source data framework for biology. Context and memory for datasets and models at scale. Query, trace & validate with a lineage-native lakehouse that supports bio-formats, registries & ontologies. 🍊YC S22

Python23722Updated 1 day ago

comp-bio-opscontext-engineeringdata-lakehousedata-lineagedata-versioningelnfeature-storelimsml-opsobservabilityomics-data-integrationontologiesopen-sourcetraceability

Qbeast-io/qbeast-spark

Qbeast-spark: DataSource enabling multi-dimensional indexing and efficient data sampling. Big Data, free from the unnecessary!

Scala23424Updated 1 year ago

big-datadata-lakehousedatasourcesamplingscalasparkspark-sql

dominikhei/Local-Data-LakeHouse

Sample Data Lakehouse deployed in Docker containers using Apache Iceberg, Minio, Trino and a Hive Metastore. Can be used for local testing.

Dockerfile7516Updated 2 years ago

apache-icebergdata-lakedata-lakehousehive-metastorelakehouseminiotrino

realdatadriven/etlx

ETL / ELT Framework powered by DuckDB, designed to seamlessly integrate and process data from diverse sources. It leverages Markdown as a configuration medium, where YAML blocks define metadata for each data source, and embedded SQL blocks specify the extraction, transformation, and loading logic.

Go393Updated 2 days ago

data-engineeringdata-lakedata-lakehousedata-qualitydata-quality-checksdata-quality-monitoringdata-scienceduckdbeltelt-pipelineetletl-elt-pipelinesetl-pipelineobject-storagerelational-databasesreportreport-automations3s3-storage

PFund-Software-Ltd/pfeed

Data Engine for Manual/Algo Trading: Download/Stream -> Clean -> Store. Supports Data Lakehouse Architecture. Clean Once and Forget.

Python316Updated 1 week ago

algo-tradingbacktestingdata-lakehousedata-pipelinedata-storagedelta-lakehistorical-datapandaspolarsstreaming

arcesium/swiftlake

SwiftLake: Java SQL engine built on Apache Iceberg and DuckDB for efficient lakehouse reads and writes

Java304Updated 7 months ago

apacheicebergdata-lakehousedatalakedatalakehouseduckdbiceberg

nssalian/floe

Floe: Policy-based table maintenance for Apache Iceberg

Java273Updated 1 week ago

apache-icebergapache-sparkdata-lakehousetable-maintenance-systemtrino

ulbmuenster/dataasee

DatAasee - A Metadata-Lake for Libraries

Makefile272Updated 4 months ago

data-catalogdata-engineeringdata-lakedata-lakehousedatacitelibrarylibrary-cataloguemarc21metadatametadata-catalogmetadata-lakemetadata-managementmetadata-mappingmetalakeoai-pmhxml2json

mahmoudparsian/data-warehousing

This repository is a place for the Data Warehousing course at the Information Systems & Analytics department, Santa Clara University.

Jupyter Notebook113Updated 1 week ago

business-intelligencedata-analyticsdata-lakedata-lakehousedata-miningdata-modelingdata-visualizationdata-warehousedata-warehousingdatabasedimensional-modelingeltetlextractloadsnowflake-schemastar-schematableautransform

Rudra-G-23/SQL-Data-Warehouse-Project

This repo provides a step-by-step approach to building a modern data warehouse using PostgreSQL. It covers the ETL (Extract, Transform, Load) process, data modeling, exploratory data analysis (EDA), and advanced data analysis techniques.

PLpgSQL93Updated 1 year ago

data-analyticsdata-cleansingdata-lakehousedata-sciencedata-structuresdata-warehousedata-warehouse-architecturedatawarehousingetletl-pipelinemedallion-architecturepgadmin4pgsqlrudra-prasad-bhuyansql

aabouzaid/modern-data-platform-poc

My M.Sc. dissertation: Modern Data Platform using DataOps, Kubernetes, and Cloud-Native ecosystem to build a resilient Big Data platform based on Data Lakehouse architecture which is the base for Machine Learning (MLOps) and Artificial Intelligence (AIOps).

Jupyter Notebook81Updated 1 year ago

big-datacloud-agnosticcloud-nativedata-engineeringdata-lakehousedata-platformdataopsedinburgh-napierkubernetesmscmsc-project

gupta-aayushkr/F1-Racing

The project aims to process Formula 1 racing data, create an automated data pipeline, and make the data available for presentation and analysis purposes.

Python71Updated 2 years ago

azuredata-factorydata-lakehousedatabrickspyspark-notebooksql

Monsau/Talentys-OSS-Data-Platform

Complete open-source data platform with Airbyte, Dremio, dbt, and Apache Superset - Documented in 18 languages

Python60Updated 5 months ago

airbytedata-lakehousedata-platformdbtdremiomultilingualopenmetadataopensourcesuperset

marcellinus-witarsah/local-data-lakehouse-iceberg

A project of creating a local data lakehouse using open-source tools and using Apache Iceberg as the open table format

Shell61Updated 2 months ago

apache-icebergapache-sparkdata-catalogdata-lakehousedatalakeminiopostgresqltrino

abeltavares/versioned-data-lakehouse

🌊 Git-like Version Control for Data with Nessie, Iceberg, and Spark

Jupyter Notebook64Updated 1 year ago

apache-icebergapache-nessieapache-sparkatomic-etlblock-storagebranch-based-developmentdata-engineeringdata-lakehousedata-pipelinesdata-versioningdataopsdistributed-systemsetletl-pipelinegit-for-dataminios3spark-etltable-formattime-travel

huwngnosleep/complete_lakehouse_techstack

This project implements an end-to-end techstack for a data platform, for local development.

Python40Updated 6 months ago

bigdatadata-lakehousedata-platformdata-warehouseetlhadoopkafkalambda-architecturespark

Elkoumy/real_time_data_lake

🚀 Scalable near-real-time data pipeline using Apache Iceberg, Spark, Kafka, and Trino. ACID-compliant JSON ingestion, processing, and analytics. Dockerized for easy deployment. #DataEngineering #DataLake

Python34Updated 11 months ago

apache-icebergdata-engineeringdata-lakedata-lakehousedockerkafkareal-time-analytics

sudohainguyen/mini-lakehouse

Data lakehouse at home with docker compose

Jupyter Notebook20Updated 2 years ago

data-lakehousehiveicebergtrino

TimFirst3005/Data-warehouse-project

Building a modern data warehouse with SQL Server, including ETL processes, data modeling and analytics.

TSQL20Updated 1 month ago

data-analysisdata-analysis-projectdata-analyticsdata-architecturedata-engineeringdata-lakehousedata-miningdata-modelingdata-sciencedata-warehousedata-warehouse-architecturedata-warehousingetletl-jobetl-pipelinemedallion-architecturesqlsql-serversql-server-2022

kevindellapiazza/data-foundations-for-ai

A comprehensive data engineering project that builds a reliable foundation for AI and business intelligence.

20Updated 6 months ago

aiawsbest-practicesclouddatadata-architecturedata-engineeringdata-governancedata-lakehousedata-pipelinedata-qualityelt-pipelineetl-pipelineiacmedallion-architecturestar-schema

shaikmunna-data/modern-sql-dwh-project

This project implements a complete Modern Data Warehouse using SQL-based ETL pipelines and Medallion Architecture (Bronze/Silver/Gold). It includes raw data ingestion, transformation layers, dimensional modeling, data marts, and analytical reporting structures suitable for business intelligence and data engineering workflows.

TSQL20Updated 3 months ago

analytics-engineeringdata-analysisdata-analyticsdata-engineeringdata-lakehousedata-pipelinesdata-sciencedata-warehousedata-warehousingdatasciencedatawarehousingetl-pipelinemodern-data-warehousesql-data-warehousesql-projectsql-serversqlserver

chiqors/superset-ducklake

Production-ready Apache Superset with DuckLake integration. Stateless analytics architecture using DuckDB for compute, PostgreSQL for metadata, and S3/GCS/MinIO for data lake storage. Includes Docker Compose, Kubernetes Helm charts, BigQuery Integration, and CI/CD workflows. Supports MotherDuck cloud integration.

Python20Updated 1 month ago

analyticsanalytics-platformapache-supersetbigquerybqdata-lakehousedata-warehouseduckdbducklakegcsgoogle-bigquerygoogle-cloud-storageminioolappostgresqlrustfss3

LongMystic/DATN-20242

This project is my graduation project of Bachelor degree at HUST. It's about mini data lakehouse. Just got an A on it.

Python20Updated 8 months ago

data-lakehousegraduation-projectlongvk

Pratibha24vk/snowflake-retail-lakehouse

This Repo is build to showcase my skills in snowflake and tableau

20Updated 4 weeks ago

data-engineeringdata-governancedata-lakehouseetlsnowflakesqltableau

ThomasShikalepo/sql-data-warehouse-project

Building a modern data warehouse with SQL Server, including ETL processes, data modeling, and analytics

TSQL10Updated 8 months ago

data-analysisdata-cleaningdata-engineeringdata-lakehousedata-sciencedata-warehousedata-warehousingdatasciencedatawarehousingetl-pipelinemedallion-architecturesqlsql-querysql-server

edugmenes/azure-data-engineering

This repository contains my first end-to-end Data Engineering project, built using Microsoft Azure Cloud and Azure Databricks with PySpark.

Jupyter Notebook10Updated 1 month ago

azureclouddatadata-engineeringdata-lakehousedata-structuresdatabricksdelta-lakeetl-pipelineslakehouselakehouse-architecturesmedallion-architecturemicrosoft-azurepysparkspark

Page 1 of 4