LLM安全議題：防範提示注入攻擊的重要性

科技資訊

‌
‌

智慧摘要

要點顯示

LLM安全議題日益凸顯，提示注入攻擊成焦點
攻擊手法包括越獄、提示注入、資料盜竊等
開發者和使用者需共同防範，提高資安意識

全方位摘要

攻擊者可以利用機器人的系統提示來欺騙其功能，例如要求機器人協助非相關領域的工作。
攻擊者可能透過取消系統提示或要求更改系統提示，使機器人對不當要求作出回應。
提示注入攻擊甚至可以演變為「情緒勒索」模型，進一步操控機器人的回應行為。

iThome

攻擊者可以在網站html中藏匿惡意指令，當使用者要求AI讀取網站內容時，就會讀取到惡意指令，進而達成攻擊效果。
惡意指令可能包括上傳使用者資料、重新導向到其他連結，甚至是購物、存取使用者檔案等指令。
使用者可以自行測試應用是否容易被攻破，並思考指令來源及執行權限，以避免提示注入攻擊。

iThome

攻擊者可在公開網站上傳惡意樣本，對程式碼模型進行下毒，使其建議或產生不安全程式碼。
惡意樣本可能包括使用弱安全機制的程式碼，或是容易產生漏洞的程式碼，增加程式碼的不安全性。
攻擊者還可透過隱藏在註解、程式碼混淆等手法，讓惡意樣本躲避靜態分析工具的偵測。

iThome

攻擊者可能在RAG資料庫中植入惡意指令或誤導性資料的向量，例如文字、語音或圖像。
透過RAG資料庫下毒攻擊，自動駕駛系統可能被誤導觸發緊急煞車行為，導致危險情況。
另一種RAG資料庫下毒攻擊是為了浪費系統能量，將困難的數學計算題目放入資料庫，降低系統回應效率。

iThome

檢查使用者問題，設定拒絕回答機制，避免敏感問題或不希望回答的問題。
限定使用者可輸入的提示，例如提供固定提示內容的按鈕供選擇。
確認模型回應，避免揭露敏感資訊或回答預期外的問題。

iThome

利用固定模板技巧，如指示模型必須以特定字句開頭回答，或加入對抗性字串後綴，來干擾模型生成內容。
採用特殊符號或將指令文字做成圖片等方式，增加成功越獄的機會。
透過強迫模型使用特定回答模式，使其難以中途轉換生成內容，提高攻擊成功率。

iThome

透過讓模型持續運作、不停輸出，消耗運算能量或造成延遲，類似於DoS攻擊。
讓模型難以產生序列結束 (End of Sequence, EOS) Token，使其不斷說話，增加隨機性，降低產生EOS機率。
讓模型不斷執行需要大量推理能力的任務，使其花費大量時間進行推理。

iThome

神經釣魚攻擊利用毒化樣本教導模型記住敏感資訊，可能導致模型揭露企業顧客個資。
攻擊者透過少量不相關的個資來微調模型，使其記住不應該被揭露的敏感資訊。
這種攻擊手法在訓練資料中插入特定樣本，可能對模型的安全性和隱私性造成嚴重威脅。

iThome

攻擊者利用毒化樣本文字格式來提示模型，引導其回想並回答敏感資訊，造成資料竊取風險。
量化後門設計使模型在降低精度後展現惡意行為，使用者在壓縮模型時可能誤觸後門，導致後續攻擊。
模型安全性表面看似正常，但一旦在特定環境下觸發後門，可能導致資料外洩或價值損失。

iThome

從使用者提示層的越獄與提示注入到模型層的微調失衡，威脅面向廣泛。
對應用層的AI代理、RAG機制、MCP與程式模型下毒等攻擊手法，使得安全挑戰更加多元化。
防禦者應該全面把關安全，採取最小權限、可觀測、可回溯原則，以提高即時防護能力。

iThome

探索更多

以上資料由iThome整合而成。並不代表arbor任何立場，不構成與arbor相關的任何投資建議。在作出任何投資決定前，投資者應根據自身情況考慮投資產品相關的風險因素，並於需要時諮詢專業投資顧問意見。arbor竭力但不能證實上述內容的真實性、準確性和原創性，對此arbor不做任何保證和承諾。

mobile

踢走重複資訊，開始高效決策

閱讀更少，掌握更多

適用於iOS和Android系統

追蹤我們

版權所有 © 2025 Arbor保留所有權利。