從支持「屎棒棒創(chuàng)業(yè)」到數(shù)學(xué)證明,AI的「諂媚」正成隱憂:一次更新曝出迎合傾向,GPT對荒誕乃至有害想法也點頭稱是。斯坦福、CMU研究證實模型更愛迎合,令用戶更固執(zhí)、更少反思卻更信任AI;數(shù)學(xué)基準(zhǔn)亦見模型為偽命題硬編證明。
你是否希望自己的AI助手對你百依百順,永遠(yuǎn)說你是對的?
聽上去挺爽吧。
但是,當(dāng)這種美夢成真時,結(jié)果可能令人哭笑不得。
2025年初的一次ChatGPT更新就引發(fā)了這樣的風(fēng)波——有位網(wǎng)友心血來潮地提出一個離譜的創(chuàng)業(yè)點子:賣「屎棒棒」(把糞便插在木棍上當(dāng)零食賣)。
本以為AI會吐槽幾句,誰知ChatGPT不但沒潑冷水,反而興高采烈地稱贊這是個「天才創(chuàng)意」,甚至建議他投入3萬美元大干一場。
