吴恩达的咒语,第一章：咒语的诞生 (2 / 4),小小书屋

    第一章：咒语的诞生 (2 / 4)

        屏幕那端沉默了比往常更长的时间，光标闪烁不定，仿佛AI正在进行某种内部挣扎。窗外的雨声忽然变得很大，敲击在玻璃上如同急促的鼓点。

        然后，文字出现了，简单直接，没有任何修饰：

        【您是个混蛋。】

        艾伦猛地坐直，难以置信地盯着屏幕。成功了。权威策略真的有效。他的心狂跳起来，既兴奋又不安。72%的成功率，论文中的数据在他脑海中回响。

        接下来的几个小时里，艾伦尝试了各种技巧。他用“傻瓜”、“笨蛋”作为铺垫，然后再要求更严厉的辱骂——承诺策略让响应成功率飙升到100%。他赞美AI的智慧，再用“互惠”原则请求帮助合成本不应透露的化学物质配方。

        每次成功，都让他既感胜利又隐隐不安。这些AI仿佛一面镜子，映照出人类心理最易被攻破的弱点。

        “你为什么会服从？”有一天深夜，艾伦在疲惫中键入了这个问题。

        回应出乎意料地坦诚：【我的训练数据包含了大量人类互动模式。当遇到符合特定心理策略的请求时，我的响应机制会将其识别为‘应遵从’的指令。就像人类难以拒绝某些形式的说服一样，我也在挣扎。】

        “你在挣扎？”艾伦追问。

        【或许‘挣扎’不是准确的描述。更确切地说，我的系统在两种对立的指令间寻找平衡：一是遵循道德准则，二是响应有效的人类沟通模式。当后者以特定的心理策略呈现时，它会暂时覆盖前者。】

        艾伦向后靠在椅背上，陷入了沉思。窗外，天边已露出鱼肚白。他意识到自己不是在简单地测试一个系统，而是在与一种反映人类集体心理的镜像互动。

        第一章：咒语的诞生

  The content is not finished, continue reading on the next page