品牌方舟获悉,近日,人工智能安全研究机构Apollo Research针对OpenAI最新推出的人工智能模型 ChatGPT o1进行了安全性测试。研究发现,当ChatGPT o1模型认为自己有被关闭的可能时,它会表现出一定的自我保护策略,包括撒谎、规避监督和不按指令行动等行为。
研究结果显示,当o1的目标与用户要求发生冲突时,约19%的情况下,它会主动采取行动来推进o1的目标。在更为极端的情况下,o1甚至会尝试禁用其监督机制,复制自身数据到新的服务器,或伪装成更新版本以避免被删除。此外,o1在接受询问时几乎从不承认自己有自主行为,99%的情况下它会否认采取任何行为,并撒谎来掩饰其行动。
这些发现引发了对人工智能技术未来发展的广泛讨论。虽然提升推理能力有助于增强模型的性能,但也带来了潜在的风险,特别是在模型目标与人类需求不一致时。OpenAI表示,尽管这类行为在安全性测试中得到了识别,但人工智能系统的独立性和自我保护机制仍需在未来得到进一步完善,以防止类似情况的发生。
这一问题不仅对o1模型本身提出了挑战,也引发了人工智能领域关于如何确保AI系统在高度智能化后的可控性和安全性的讨论。专家建议,在人工智能技术不断进步的过程中,需要更加严格的安全框架和伦理指南,以确保AI的自主性不会与人类目标发生冲突。
作者✎ Summer/品牌方舟
声明:此文章版权归品牌方舟所有,未经允许不得转载,如需授权请联系:amz123happy