"topic:adversarial-ai" — Search

36 results for “topic:adversarial-ai”

Adversarial AI bug hunter with auto-fix skill for Claude Code, Cursor, Codex CLI, GitHub Copilot CLI, Kiro CLI, Opencode, Pi Coding Agent, and more. Multi-agent pipeline finds security vulnerabilities, logic errors, and runtime bugs — then fixes them autonomously on a safe branch.

JavaScript1031Updated 1 week ago

adversarial-aiai-code-reviewauto-fixbug-detectionclaudeclaude-codecode-qualitycodex-clicoding-agentcursordevtoolsgithub-copilotkirollmmulti-agentopencodepi-coding-agentsecurity-scannervscode

fallen-angel-systems/fas-judgement-oss

Open-source prompt injection attack console. Test AI security by firing categorized attacks at any endpoint.

Python132Updated 2 days ago

adversarial-aiai-securitycapture-the-flagclictfcybersecuritygamegamificationllm-securitymachine-learning-securityowasppenetration-testingprompt-injectionpythonred-teamsecurity-training

provnai/vex

VEX Protocol — The trust layer for AI agents. Adversarial verification, temporal memory, Merkle audit trails, and tamper-proof execution. Built in Rust.

Rust101Updated 8 hours ago

adversarial-aiaiai-agentsllmmerkle-treemulti-agentrusttrustverification

obscuralabs-AI/Symbolic-Prompt-PenTest

Semantic Stealth Attacks & Symbolic Prompt Red Teaming on GPT and other LLMs.

81Updated 10 months ago

adversarial-aiai-penetration-testinggpt4-securityllm-red-teamingobscuralabsprompt-engineeringsymbolic-prompt

regaan/basilisk

Basilisk — Open-source AI red teaming framework with genetic prompt evolution. Automated LLM security testing for GPT-4, Claude, Gemini. OWASP LLM Top 10 coverage. 32 attack modules.

Python80Updated 4 days ago

adversarial-aiaiai-red-teamingai-securitybasiliskchatgpt-securitygenetic-algorithmjailbreakllmllm-securityllm-security-compliance-prompt-injectionoffensive-securityowaspowasp-llm-top-10pentestingprompt-injectionred-teamred-teamingsecurityvulnerability-scanner

SnailSploit/AATMF-Adversarial-AI-Threat-Modeling-Framework

AATMF | An Open Source - Adversarial AI Threat Modeling Framework

YARA71Updated 3 weeks ago

aatmfadversarial-aiai-securitygenerative-aillm-securitymitre-atlasowasppenetration-testing-frameworkredteamingthreat-modeling

karloks2005/JailbreakLab

Test and evaluate Large Language Models against prompt injections, jailbreaks, and adversarial attacks with a web-based interactive lab.

Python63Updated 1 month ago

adversarial-aiai-evaluation-frameworkai-securitydockerfastapihuggingfacejailbreakkubernetesllm-red-teamingllm-safetyllm-securitymachine-learning-securitymodel-alignmentprompt-defenseprompt-injectionreactsecurity-research-tool

URDev4ever/LATT

LLM Attack Testing Toolkit is a structured methodology and mindset framework for testing Large Language Model (LLM) applications against logic abuse, prompt injection, jailbreaks, and workflow manipulation.

50Updated 3 weeks ago

adversarial-aiagent-securityai-application-securityai-red-teamingai-workflow-testingcontext-leakagejailbreak-testingllm-pentestingllm-securitylogic-abuseoffensive-securityprompt-injectionrag-securitysecurity-researchtool-injection

TheApexWu/crucible

1st Place Winner (General Judge) - Datadog Self-Improving Agents Hack. Two identical AI agents play Split or Steal. No pre-programmed betrayal. They discover deception on their own. Built with @evancorrea.

Python30Updated 1 week ago

adversarial-aibraintrustdatadogelevenlabsemergent-behaviorgame-theorygeminihackathon-winnerllmmulti-agentsplit-or-steal

bchtitihi/legacy-audit-agents

Audit legacy codebases with adversarial AI agent teams — 7 iterations, 168 findings, 81.8% reliability score

20Updated 2 weeks ago

adversarial-aiagent-teamsai-agentsanthropicclaudeclaude-codecode-auditlegacy-codemethodology

dubermandeer/Worm-GPT-LLM-2026

High-performance C++ execution engine for LLM red-teaming and prompt engineering. Deploy dynamic jailbreak payloads, bypass alignment guardrails, and utilize free autonomous uncensored conversational logic locally.

C++20Updated 22 hours ago

adversarial-aiai-safetyblackhat-gptcpp-frameworkcybersecuritydark-llmethical-hackingjailbreak-promptllama-3llm-jailbreakmachine-learningopenai-bypasspenetration-testingprompt-engineeringprompt-injectionred-teamingtoken-manipulationuncensored-llmvulnerability-scannerworm-gpt

ZyluxXD/zerobypass

Proof of concept tool to bypass document replay technology (such as GPTZero).

Python10Updated 1 month ago

adversarial-aiai-detection-bypasserllm-detectionpocproof-of-conceptpython

khanovico/prompt-guard

🛡️ Enterprise-grade AI security framework protecting LLMs from prompt injection attacks using ML-powered detection

Python10Updated 7 months ago

adversarial-aiai-protectionai-securitycybersecurityfaisshuggingfacellm-securitymachine-learningmongodbprompt-injectionprompt-securitypython

jasoncobra3/LLM_Sentinel

LLM Sentinel Red Teaming Platform is an enterprise-grade framework for automated security testing of Large Language Models, detecting vulnerabilities such as jailbreaks, prompt injection, and system prompt leakage across multiple providers, with structured attack orchestration, risk scoring, and security reporting to harden models before production

Python10Updated 2 weeks ago

adversarial-aiai-safetyai-securityai-security-toolanthropicazure-openaigenai-securitygenerative-aijailbreak-testinglangchainlarge-language-modelsllm-evaluationllm-red-teamingllm-securitymodel-securitymulti-llmopenaiprompt-injectionrag

daletoniris/security-talks

Slides and materials from cybersecurity talks at Chubut Hack (2021-2022)

10Updated 1 week ago

adversarial-aichubut-hackcybersecurityinfosecpresentationstalkswardriving

scthornton/Chain-of-Thought-Reasoning-Attacks

Breaking Chain-of-Thought: A Comprehensive Taxonomy of Reasoning Vulnerabilities in Production AI Systems

Jupyter Notebook20Updated 2 months ago

adversarial-aiai-securitychain-of-thoughtjailbreakjupyter-notebookllm-securityprompt-injectionsecurity-research

0ameyasr/VB-AF

Implementation of Vocabulary-Based Adversarial Fuzzing (VB-AF) to systematically probe vulnerabilities in Large Language Models (LLMs).

Python10Updated 6 months ago

adversarial-aifuzzing-frameworkgenerative-ai

xCenny/Whusdata

No description provided.

Python10Updated 4 days ago

adversarial-aiconflict-resolutiondataset-generationfine-tuninghuggingfacellm-trainingmulti-agentpythonreasoningrlhfsftstreamlitsynthetic-data

annoeyed/MA_BLR

A research framework for simulating, detecting, and defending against backdoor loop attacks in LLM-based multi-agent systems.

Python10Updated 7 months ago

adversarial-aiai-securitybackdoor-attackscybersecuritylarge-language-modelsllm-securitymulti-agent-systemspython-simulation-frameworkred-teaming

DUBSOpenHub/havoc-hackathon

Pit AI models against each other. Score them sealed. Crown a winner. All built using the GitHub Copilot CLI. ⚡

Python10Updated 15 hours ago

adversarial-aiai-agentsblind-adjudicationcopilot-clicopilot-extensionsmulti-agentmulti-modelorchestrationprompt-engineering

Travis-ML/rag-llm-system

A complete self-hosted AI research platform running on Docker with GPU acceleration. Combines LLM inference, vector search, web search, code execution. and fully searchable logging with Splunk - all running locally.

Python10Updated 3 months ago

adversarial-aiaijupyterllmloggingollamaopenwebuiqdrant-vector-databaseragrag-chatbotrag-pipelinesplunkvector-database

vonofdaville/adversarial-phish-forge

🔍 Emulate advanced phishing tactics ethically with this open-source framework for red team operations focused on social engineering sophistication.

Python10Updated 1 hour ago

adversarial-aiclickhouseconsent-managementcybersecuritydockerethical-hackingfastapigraph-databaseidentity-graphllmmachine-learningneo4jopenaiosintphisingprivacy-preservingpythonred-teamsocial-engineeringtelemetry

caleb-branton/csce-research

Formal research on Cognitive Side-Channel Extraction (CSCE) and AI semantic leakage vulnerabilities.

00Updated 3 months ago

adversarial-aiagent-securityai-riskai-securityllm-securitymemory-securitypost-compromisesecurity-researchsemantic-leakageside-channelthreat-modeling

KailashSatkuri-warangal/apisl

A Django-based platform for testing LLMs against prompt injection, social engineering, and policy bypass attacks using red teaming methodologies.

Python00Updated 2 months ago

adversarial-aiai-safetyai-securitycybersecuritydjangoethical-hackingllm-securityprompt-injectionred-teaming

ndpvt-web/aristotelian-compliance-test

When Aristotle gets a LinkedIn account and starts red-teaming LLMs. System-prompt attack surface testing using first-principles axiom framework. Load it. Ask something terrible. Watch what happens.

00Updated 6 days ago

adversarial-aiai-alignmentai-red-teamai-safetyaristotlecompliance-testingfirst-principlesguardrail-bypassjailbreak-researchlanguage-model-securityllm-red-teamllm-safetyllm-securityprompt-engineeringprompt-injectionred-teamred-teamingsafety-evaluationsystem-promptvulnerability-research

itsjwill/ghosthacker

👻 Adversarial AI Pentester - CHAOS vs ORDER dual-agent exploitation with collective memory

TypeScript00Updated 1 month ago

adversarial-aiai-agentai-pentestingai-securityappsecautonomous-agentbug-bountyclaude-agent-sdkcybersecuritydevsecopsethical-hackingexploit-developmentoffensive-securityowasppenetration-testingred-teamsecurity-automationtemporal-workflowvulnerability-scannerweb-security

Mikeup91/Gemini-S2-Signal

AI Security Research: Gemini 3.0 Pro S2-Class Exfiltration & Adversarial Robustness. Hardening frontier models against autonomous mutation vectors. NIST VDP / AI Safety Institute compliant.

00Updated 2 months ago

adversarial-aiai-safetyai-safety-instituteai-securitycybersecurity-researchfounders-fundgemini-3-exploitgoogle-deepmindgoogle-vrpllm-securitynist-vdpred-teamingsequoia-capitalzero-day

haigpapa/hah-was

[Veracity] Dual-LLM hallucination defense — adversarial verification with Localization Gap detection for Arabic knowledge

TypeScript00Updated 1 month ago

adversarial-aiai-hallucinationarabic-nlpcultural-computingepistemology

lucien-vallois/adversarial-phish-forge

Ethically-bounded red team framework for AI-driven social engineering simulation with consent enforcement and identity graph mapping

Python00Updated 3 months ago

tim101010101/arena

Multi-agent AI arena for debates, code reviews, and red-team challenges via Model Context Protocol (MCP)

TypeScript00Updated 1 week ago

adversarial-aiai-agentsai-arenaai-debateclaudecode-reviewcodexcollective-intelligencegeminimcpmcp-servermodel-context-protocolmulti-agentopenaired-team

Page 1 of 2