构建能自我约束的人工智能工程 - 科普时报社

摇曳烛光

人工智能（AI）将取代人类摄取知识的过程？艺术创作都将由人工智能软件替代？人类将变成依靠键盘生活的动物？自从我们第一次遇到这些争论，并建议人们重视并解决它们以来，人工智能安全领域已发生巨大的变化。

如今，可以自我进化的先进人工智能系统对人的威胁不仅存在，且愈演愈烈。《稳住人工智能：未来25年内人类和AI的共同进化》的作者巴里·波特纳，是在航天发射和空间系统设计和开发方面，有着40多年成就的工程师。他曾为美国宇航局（NASA）等合作伙伴撰写了大量的工程论文、说明、规范、架构和分析报告。在这本书中，他认为传统的应对人工智能威胁的措施已经过时，“如果人工智能系统学会自我修改，它就可以绕过人类添加的自我维护系统，到那时就晚了”。

面对人工智能技术的飞速发展，人类还没有一个稳定的、可应对的自适应框架。也就是说，直到现在，无论在航空航天领域，还是在医学范畴，可以说在任何地方，我们的传统工程学仍然在原地徘徊而没有与时俱进。但巴里·波特纳认为，目前已有一些很有希望的研究方向或可消除潜在的灾难。

这本书提出了一个看似激进但实际上早该被重视的观点：让人工智能成为一个能承载错误并解决自身问题的平台，而不是等到为时已晚再匆忙采取措施。凭借40年的工程设计经验和深厚的专业知识，巴里·波特纳和他的团队提出了一个综合性的人工智能稳定架构。

这个架构主要通过四个核心机制保障安全：直觉核心，保护机制的最底层，让AI对自己的健康状况有真正的直觉，在安全崩溃前触发自我保护措施；道德制约性，即在潜在的道德违规行为发生前几毫秒就能检测到，进而让系统暂停、重新校准或升级到人类控制；时间控制，防止一夜之间的数据转移；学习控制，确保系统在学习和发展过程中保持连贯性，防止其发生目标漂移。

这套系统让人工智能每个重要的决策，都存在于如影随形的跟踪下，原本需要数周才能察觉的安全事故，现在只需几分钟。而未来几年，恰恰是发展这套自我约束性人工智能工程的关键时期。这本书就像是构建这套系统工程的剧本：框架、模板、验证方法、治理结构。

此书最后一章预测了未来25年神经形态硬件、习得的道德直觉和自我修复系统等机制的发展，并揭示了为什么“神经科学-人工智能耦合”是实现人工智能稳定最有希望的途径。人类应该意识到：选择权在我们手中，时间就是现在。

（作者系中国科学院大学教授、国际科学素养促进中心研究员）