"topic:prompt-compression" — Search

22 results for “topic:prompt-compression”

🦞 LLM Token Compression & Reduction Tool — Cut AI agent token costs by up to 97%. 6-layer deterministic context compression for AI agent workspaces. No LLM required. Prompt compression, context window optimization & cost reduction for any LLM pipeline.

Python1.6k138Updated 1 week ago

ai-agent-toolsai-cost-savingai-infrastructureclaw-compactorcontext-compressioncontext-pruningcontext-window-optimizationdeveloper-toolsllm-compressionllm-context-compressionllm-cost-reductionllm-token-compressionllm-toolsopenclawprompt-compressionpython-toolstoken-compressiontoken-optimizationtoken-reductiontoken-saving

atjsh/llmlingua-2-js

JavaScript/TypeScript implementation of LLMLingua-2 (Experimental)

TypeScript223Updated 6 months ago

hfjavascriptllmlinguanodejsprompt-compressionprompt-engineeringtensorflowtensorflowjstransformer-jstransformerstypescriptwebwebgpu

centminmod/or-cli

Python command-line tool for interacting with AI models through the OpenRouter API/Cloudflare AI Gateway, or local self-hosted Ollama. Optionally support Microsoft LLMLingua prompt token compression

214Updated 2 months ago

ai-ragcloudflare-aicloudflare-ai-gatewaylinkupllm-inferencellmlinguallmsollamaollama-apiopenaiopenai-apiopenai-api-clientopenrouteropenrouter-apiopikprompt-compressionragstructured-outputstxtai

NodeNestor/claude-rolling-context

Rolling context compression for Claude Code — never hit the context wall. Auto-compresses old messages while keeping recent context verbatim. Zero config, zero latency. Works as a Claude Code plugin.

Python81Updated 6 days ago

ai-agentai-codinganthropicclaudeclaude-codeclaude-code-extensionclaude-code-plugincontext-compressioncontext-managementcontext-windowllm-contextprompt-compressionrolling-context

napmany/cutia

CUTIA: compress prompts while preserving quality

Python70Updated 1 month ago

dspyprompt-compressionprompt-engineering

kaistAI/GenPI

This repository is the official implementation of Generative Context Distillation.

Python40Updated 10 months ago

agentcontext-distillationdistillationprompt-compressionprompt-injectionprompt-internalization

therohanparmar/t3-toon

TOON for TYPO3 — a compact, human-readable, and token-efficient data format for AI prompts & LLM contexts. Perfect for ChatGPT, Gemini, Claude, Mistral, and OpenAI integrations (JSON ⇄ TOON).

PHP41Updated 2 weeks ago

aiai-promptclaudedata-formatterjsonmistralopenaiphpphp8promptprompt-compressionprompt-engineeringprompt-optimizertokentoken-optimizationtoontypo3typo3-aitypo3-ai-extensiontypo3-toon

Kelpejol/prompt-compression-gateway

API gateway for LLM prompt compression with policy enforcement built on LLMLingua. Demonstrates cost control, prompt safety, and LLM execution boundaries.

Python30Updated 2 months ago

api-gatewayfastapillmprompt-compressionpython

gladehq/claude-shorthand

LLMLingua-2 prompt compression hook for Claude Code — cut token usage by ~55%

Python30Updated 20 hours ago

claudeclaudecodeclaudecode-hooksclaudecode-pluginclideveloper-toolslinuxllmllmlinguamacosprompt-compressionprompt-engineeringprompt-tuningtokentoken-optimization

contextcrunch-ai/contextcrunch-python

Compress LLM Prompts and save 80%+ on GPT-4 in Python

Python31Updated 2 years ago

apillmprompt-compressionpython

ksm26/Prompt-Compression-and-Query-Optimization

Enhance the performance and cost-efficiency of large-scale Retrieval Augmented Generation (RAG) applications. Learn to integrate vector search with traditional database operations and apply techniques like prefiltering, postfiltering, projection, and prompt compression.

Jupyter Notebook20Updated 1 year ago

cost-efficiencydata-retrievaldata-retrieval-and-displaydata-securitydatabase-operationsdeveloper-advocacylarge-scale-applicationsmongodbperformance-optimizationpostfilteringprefilteringprojectionprompt-compressionquery-optimizationquery-processingrag-applicationsrerankingsearch-relevancevector-searchvector-search-engine

chirindaopensource/compact_prompt_unified_pipeline_prompt_data_compression_LLM_workflows

End-to-End Python implementation of CompactPrompt (Choi et al., 2025): a unified pipeline for LLM prompt and data compression. Features modular compression pipeline with dependency-driven phrase pruning, reversible n-gram encoding, K-means quantization, and embedding-based exemplar selection. Achieves 2-4x token reduction while preserving accuracy.

Jupyter Notebook20Updated 3 months ago

arxivcomputational-financecost-optimizationdata-compressionenterprise-aifinancial-aigpt-4information-theoryllm-optimizationmachine-learningnatural-language-processingnlpopenai-apiprompt-compressionprompt-engineeringpythonquantizationquestion-answeringresearch-implementationtext-compression

sidedwards/tinyprompt

A fast, Unix-style CLI tool for semantic prompt compression. Cuts LLM prompt tokens by 10-20x with >90% fidelity, saving costs and latency.

Python20Updated 5 months ago

clicompresssionllmllmopsprompt-compressiontext-processing

Starscream-11813/Frugal-ICL

This repository contains the code and data of the paper titled "FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution."

Jupyter Notebook20Updated 1 week ago

decompxfrugal-aifrugal-promptglobencprompt-compressiontoken-attribution

npow/kompact

LLM context compression proxy — 40-70% token savings, zero code changes

Python22Updated 1 week ago

ai-agentsanthropicclaudecontext-compressioncontext-windowcost-reductionfastapigpt4llmllm-optimizationopenaiprompt-compressionproxypythontfidftiktokentoken-optimization

maichanks/llm-cost-optimizer

LLM cost monitoring and optimization toolkit

JavaScript10Updated 19 hours ago

ai-costapi-cost-managementbudgetcost-optimizationllmmonitoringopenclawopenrouterprompt-compressionredissemantic-cachingtoken-tracking

SreeyaSrikanth/RL-Prompt-Compression

RL-Prompt-Compression employs graph-enhanced reinforcement learning with a Phi-3 compressor trained via GRPO using a TinyLlama evaluator and a MiniLM cross-encoder feedback model, to optimize prompt compression and improve model efficiency.

Jupyter Notebook01Updated 4 months ago

prompt-compressionreinforcement-learning

desagencydes-rgb/CATALYST

CATALYST - Lightning-fast optimization plugin for Claude Code + Ollama. Achieves 3-4x speedup through intelligent prompt compression, smart caching, and task-aware planning. Zero dependencies, MIT licensed, production-ready.

JavaScript00Updated 2 weeks ago

cachingclaude-codedeveloper-toolslocal-modelsollamaoptimizationperformancepluginprompt-compressionspeed

sriinnu/clipforge-PAKT

PAKT: Lossless prompt compression for LLMs. 30-50% fewer tokens on JSON/YAML/CSV/Markdown. Perfect round-trip fidelity. TypeScript library + CLI + Chrome extension + Tauri desktop app.

TypeScript00Updated 1 week ago

ai-toolsapi-cost-reductionchrome-extensionclicontext-windowcsvdeveloper-toolsjsonllmlossless-compressionmarkdownmcpopenaipaktprompt-compressiontauritoken-optimizationtokenizertypescriptyaml

ottobot2025/SPEC-compression

Prompt compaction and shorthand codec for LLM workflows

Python00Updated 1 week ago

llmprompt-compressiontext-compression

ofershap/prompt-compression

No description provided.

JavaScript00Updated 3 weeks ago

agents-mdai-agentclaude-codecontext-windowcursor-pluginprompt-compressiontoken-optimization

smaffan21/eco-llm

A compact chrome extension built to cut down prompt size and maximize token savings. It compresses text while preserving meaning, helping you use fewer tokens and lower costs

TypeScript00Updated 3 weeks ago

chatgpt-pluginchrome-extensionllmprompt-compression