Vad är Man-in-the-Prompt Attack och hur du skyddar dig själv

Du litar på att din AI följer dina uppmaningar, men vad händer om någon annan i hemlighet ändrar dem? En ny attack låter illvilliga aktörer kapa dina instruktioner, vilket gör att LLM returnerar vilseledande eller skadliga svar som stjäl data eller lurar användare. Låt oss utforska hur denna man-in-the-prompt-attack fungerar och hur du kan försvara dig mot den.

Innehållsförteckning

Vad är en Man-in-the-Prompt-attack?
Polisens webbläsartillägg
Ange uppmaningar manuellt och inspektera innan du skickar
Starta nya chattsessioner när det är möjligt
Inspektera modellens svar

I likhet med en man-in-the-middle-attack, fångar en man-in-the-prompt-attack upp din interaktion med ett verktyg för stora språkmodeller (LLM) som AI-chatbots för att returnera ett oväntat svar. De kan injicera en synlig eller till och med en osynlig uppmaning tillsammans med din uppmaning att instruera LLM att avslöja hemlig information eller ge ett skadligt svar.

Än så länge är webbläsartillägg den huvudsakliga attackvektorn för denna attack. Detta beror främst på att in- och utmatning av LLM-prompten är en del av sidans Document Object Model (DOM) som webbläsartillägg kan komma åt med grundläggande behörigheter. Men den här attacken kan också utföras med andra metoder, som att använda ett promptgeneratorverktyg för att injicera skadliga instruktioner.

Privata LLM:er, som i en företagsmiljö, är mest sårbara för denna attack eftersom de har tillgång till privata företagsdata, som API-nycklar eller juridiska dokument. Personliga kommersiella chatbots är också sårbara, eftersom de kan innehålla känslig information. För att inte tala om, LLM kan luras att säga åt användaren att klicka på en skadlig länk eller köra skadlig kod, som en FileFix- eller Eddiestealer-attack.

Om du vill se till att din AI-chatbot inte vänjer sig mot dig, nedan är några sätt att skydda dig själv.

Polisens webbläsartillägg

Även om webbläsartillägg är huvudboven, är det svårt att upptäcka en man-in-the-prompt-attack eftersom tillägget inte kräver speciella behörigheter för att köras. Det bästa är att undvika att installera sådana tillägg. Eller om du måste installera tillägg från välrenommerade utgivare som du litar på.

Du kan också spåra tilläggets bakgrundsaktivitet för att få ledtrådar. När du använder en LLM, tryck på Shift + Esc-tangenterna för att öppna webbläsarens aktivitetshanterare. Se om några tillägg börjar köra sina processer även när de inte ska fungera där. Detta kan tyda på att det ändrar prompten, speciellt om det bara händer när du skriver i chatbotens textfält.

Undvik dessutom att använda tillägg som direkt interagerar med dina LLM-verktyg eller modifierar uppmaningar. De kanske fungerar bra i början, men kan börja göra skadliga redigeringar senare.

Ange uppmaningar manuellt och inspektera innan du skickar

Många online-promptverktyg kan redigera dina uppmaningar för bättre resultat eller tillhandahålla snabbmallar. Även om de är användbara kan dessa verktyg också injicera skadliga instruktioner i dina meddelanden och behöver inte direktåtkomst till din webbläsare/enhet.

Försök att manuellt skriva uppmaningar i AI-chatbotfönstret och kontrollera alltid innan du trycker på Enter. Om du måste kopiera från en annan källa, klistra först in den i en vanlig textredigerare som appen Anteckningar i Windows och klistra sedan in den i chatboten. Detta säkerställer att alla dolda instruktioner avslöjas. Om det finns några tomma utrymmen, se till att du använder backstegstangenten för att ta bort dem.

Om du behöver använda snabbmallar, skapa dina egna och förvara dem säkra i en anteckningsapp istället för att vara beroende av tredjepartskällor. Dessa källor kan introducera skadliga instruktioner senare när du börjar lita på dem.

Starta nya chattsessioner när det är möjligt

Man-in-the-Prompt-attacker kan också stjäla information från en aktuell session. Om du har delat känslig information med LLM är det bättre att starta en ny chattsession när ämnet ändras. Detta kommer att säkerställa att LLM inte avslöjar känslig information även om en man-in-the-prompt-attack inträffar.

Dessutom, om en sådan attack inträffar, kan en ny chatt hindra den från att ytterligare påverka sessionen.

När du använder AI-chatbot, tro inte på allt den svarade. Du måste vara mycket skeptisk till LLM:s svar, särskilt när du hittar några avvikelser. Om chatboten plötsligt ger dig känslig information utan att du frågar bör du omedelbart stänga chatten eller åtminstone öppna en ny session. De flesta man-in-the-prompten-instruktioner ignorerar antingen den ursprungliga uppmaningen helt eller begär ytterligare information i ett separat avsnitt i slutet.

Dessutom kan de också be LLM att svara på ett ovanligt sätt för att förvirra användaren, som att lägga informationen i ett kodredigeringsblock eller en tabell. Om du ser några sådana anomalier måste du omedelbart anta att det är en man-in-the-prompt-attack.

Inträde av Man-in-the-Prompt-attacker är mycket lätt i företagsmiljöer, eftersom de flesta företag inte granskar webbläsartilläggen för anställda. För största möjliga säkerhet kan du också prova att använda LLM i inkognitoläge med tillägg inaktiverade. Medan du håller på, se till att du skyddar dig från slopsquatting-attacker som drar fördel av AI-hallucinationer.

Läs även:16 miljarder lösenord läckt på grund av infostealers: Hur du skyddar dig själv