大模型“对齐”与“智善一体化”

日期：09-26

字号：大 中 小

版面：第11版：读+周刊上一篇 下一篇

刘洋武汉大学教师。

□ 刘洋

近年来，以ChatGPT为代表的大语言模型发展迅速，激发了人们对通用人工智能的憧憬和热情。尽管大语言模型是否是通向通用人工智能之路仍然存在争议，但不可否认它们在科技领域的重要性。然而，随着其应用广泛扩展，也带来了一系列安全和伦理隐患问题。

为此研究人员提出了一种全新的方法——“对齐”。对齐研究是一种新的方法，旨在确保大语言模型的行为与人类价值观一致，但这是一个具有挑战性的问题。因为人类无法准确预测技术的未来发展，而且不同人对价值观有不同看法，这使问题更加复杂。

要解决这些问题，研究者需要从社会科学的角度进行研究和分析，以明确大语言模型应当对齐哪些价值观，同时要注意不伤害到其他群体的利益。在指定正确的目标函数方面，这仍然是一个技术上的挑战。大语言模型是否应该从与人类数据中学习合适的价值观，以及如何提供正确的数据和反馈来引导大语言模型的自我学习，都需要仔细考虑。此外，确保提供这些数据和反馈的合理性也涉及规范性问题。安全对齐是至关重要的，因为如果不能解决大语言模型的对齐问题，可能会带来巨大的风险，甚至可能导致人类面临灾难。然而，对齐研究通常涉及模糊的目标，而且这些目标相当狭窄，未来的大语言模型可能会达到这些目标，但仍然可能带来伦理和社会风险。

大语言模型的安全问题不仅仅是技术性的问题，还涉及社会和政治经济学等多个领域。确保其安全性需要解决一系列问题，包括数据滥用、劳动模式、生态影响等。同时，我们需要认真考虑未来技术可能带来的使用方向，以及谁会受益。最重要的是，将大模型对齐视为技术问题会将权力放错位置。专家不应该独自决定哪些风险和价值观有意义，而应该涉及广泛的社会参与和决策，确保多样性和公平性。

为了避免大语言模型的社会伦理风险以及未来的人类生存风险，必须坚持“智善一体化”的原则，积极开展对齐研究。对齐研究和大模型能力研究应该相辅相成，对齐研究可以为大语言模型的能力研究提供洞见，并确保其在未来的发展中与人类价值观一致。这需要更多的研究人员和机构的共同努力，以推动大语言模型的和谐发展。

大模型“对齐”与“智善一体化”

日期：09-26 字号：大中小 版面：第11版：读+周刊 上一篇 下一篇

日期：09-26

字号：大中小

版面：第11版：读+周刊上一篇下一篇