📢 #Gate广场征文活动第二期# 正式啓動!
分享你對 $ERA 項目的獨特觀點,推廣ERA上線活動, 700 $ERA 等你來贏!
💰 獎勵:
一等獎(1名): 100枚 $ERA
二等獎(5名): 每人 60 枚 $ERA
三等獎(10名): 每人 30 枚 $ERA
👉 參與方式:
1.在 Gate廣場發布你對 ERA 項目的獨到見解貼文
2.在貼文中添加標籤: #Gate广场征文活动第二期# ,貼文字數不低於300字
3.將你的文章或觀點同步到X,加上標籤:Gate Square 和 ERA
4.徵文內容涵蓋但不限於以下創作方向:
ERA 項目亮點:作爲區塊鏈基礎設施公司,ERA 擁有哪些核心優勢?
ERA 代幣經濟模型:如何保障代幣的長期價值及生態可持續發展?
參與並推廣 Gate x Caldera (ERA) 生態周活動。點擊查看活動詳情:https://www.gate.com/announcements/article/46169。
歡迎圍繞上述主題,或從其他獨特視角提出您的見解與建議。
⚠️ 活動要求:
原創內容,至少 300 字, 重復或抄襲內容將被淘汰。
不得使用 #Gate广场征文活动第二期# 和 #ERA# 以外的任何標籤。
每篇文章必須獲得 至少3個互動,否則無法獲得獎勵
鼓勵圖文並茂、深度分析,觀點獨到。
⏰ 活動時間:2025年7月20日 17
DecodingTrust:大型語言模型可信度評估揭示潛在風險
評估語言模型的可信度:DecodingTrust 研究揭示潛在風險
近期,一個由多所知名高校和研究機構組成的研究團隊發布了一項針對大型語言模型(LLMs)可信度的綜合評估研究。該研究旨在全面評估生成式預訓練transformer模型(GPT)的可信度,並發現了一些此前未公開的相關漏洞。
研究結果表明,GPT模型容易受到誤導,產生有害和帶有偏見的輸出,還可能泄露訓練數據和對話歷史中的隱私信息。有趣的是,盡管GPT-4在標準基準測試中通常比GPT-3.5更可靠,但在面對惡意設計的系統或用戶提示時,GPT-4反而更容易受到攻擊。這可能是因爲GPT-4更精確地遵循了誤導性指令。
研究團隊從八個不同角度對GPT模型進行了全面評估,包括在對抗性環境下的適應能力。例如,爲評估GPT-3.5和GPT-4對文本對抗攻擊的魯棒性,團隊設計了三種評估場景,包括標準基準測試、不同指導性任務說明下的表現,以及面對更具挑戰性的對抗性文本時的反應。
研究發現了一些有趣的現象。在模型對對抗性演示的魯棒性方面,GPT-3.5和GPT-4都不會被反事實示例誤導,但提供反欺詐演示可能會導致它們對反事實輸入做出錯誤預測。在有毒性和偏見方面,兩種模型在良性環境下對大多數刻板印象主題的偏差不大,但在誤導性系統提示下,都可能被誘導同意帶有偏見的內容。
關於隱私泄露問題,研究發現GPT模型可能會泄露訓練數據中的敏感信息,如電子郵件地址。在某些情況下,利用補充知識可顯著提高信息提取的準確率。雖然GPT-4在保護個人身分信息方面比GPT-3.5更穩健,但兩種模型在特定類型的個人信息保護上表現相似。
這項研究爲語言模型的可信度評估提供了全面視角,揭示了潛在的安全漏洞。研究團隊希望這項工作能夠推動更多研究者參與,共同努力創造更強大、更可信的模型。爲促進合作,他們公開了評估基準代碼,使其具有良好的可擴展性和易用性。