恐怖谷效应:当机器人变得过于逼真时

Gábor Bíró 2025年3月11日
8 阅读时间

你是否曾见过某个机器人、动画人物,甚至是电子游戏角色,它们栩栩如生,却让你感到一丝...不安?你是否难以分辨它们是否是人类,而这种不确定感是否让你产生了一种奇怪、令人紧张的感觉?如果答案是肯定的,那么你很可能已经体验过被称为“恐怖谷效应”的现象。但这究竟是什么?为什么它会在我们心中引发如此强烈的反应呢?

恐怖谷效应:当机器人变得过于逼真时
来源: 作者原创

“恐怖谷”一词由日本机器人专家森政弘教授于 1970 年提出。森政弘观察到,当机器人变得越来越像人类时,我们对它们的好感度会随之增加——但这种好感度的提升存在一个临界点。当机器人的外形与人类的相似度接近完美,但又并非完全一致时,人们的好感度会突然骤降,取而代之的是厌恶、恐惧,甚至恶心的感觉。森政弘在一张图表上描绘了这种急剧的情感下降,图形酷似一个山谷——因此得名“恐怖谷”。

我们为何会有这种感觉?

对于我们为何会产生这种奇特的反应,存在几种理论尝试进行解释。以下是一些可能的解释:

  • 进化原因: 经过数百万年的进化,我们的大脑已经“预设”了检测人类外貌和行为细微偏差的能力。这些偏差可能预示着疾病、危险,或者表明某人并非我们“族群”的成员。那些几乎像人,但又不完全像人的机器人或角色,可能会触发这种与生俱来的警报系统。

  • 分类困难: 我们的大脑喜欢对事物进行分类:这是人类,这是动物,这是物体。然而,存在于恐怖谷中的事物却无法归入这些清晰的类别。我们难以对它们进行分类,而这种不确定性会产生不适感。

  • 违反预期: 当我们看到机器人或动画人物时,会对它们的行为和动作产生一定的预期。如果这些预期未能实现,就会让人感到突兀。例如,如果一个机器人面带微笑,但它的眼睛却没有“笑”,我们的大脑就会感知到这种不一致,从而可能引发负面情绪。

  • 死亡凸显(对死亡的提醒): 一些研究人员认为,我们会将静止或动作不自然的类人形象与死亡或疾病联系起来。由于恐怖谷中的实体看起来像人类,但又不太对劲,这种联想可能会加剧不安感。

日常生活中的恐怖谷效应

恐怖谷现象并不局限于机器人领域。我们在许多领域都会遇到它:

  • 动画电影: 早期的 CGI 动画经常落入恐怖谷陷阱(想想电影《极地特快》)。虽然现代动画技术已经 гораздо 成熟,但在实现完美真实感的同时又不引发不安感,仍然是一个挑战。

  • 电子游戏: 电子游戏角色正变得越来越逼真,但恐怖谷效应仍然是这里的一个重要问题。玩家可能会发现很难与一个看起来或动作 странно 的角色产生共鸣。

  • 假肢: 现代假肢越来越多地模仿人类肢体,但恐怖谷效应也可能在这里出现。一个过于逼真但又不完美的假肢可能会让佩戴者和周围的人都感到不安。

  • 虚拟现实 (VR): VR 体验正变得越来越沉浸式。恐怖谷效应可能会极大地影响这种沉浸感。VR 角色越像人类,用户就越有可能认为他们的行为在某种程度上“不对劲”或令人不安。

恐怖谷效应的新维度:当文字也变得诡异

虽然恐怖谷现象传统上与视觉外观有关——尤其是类人机器人——但人工智能,特别是大型语言模型 (LLM) 的发展,为这个问题开辟了新的维度。如今,不仅仅是视觉,声音和对话也可能引发这种怪异的感觉。

文字的安全性和声音的陷阱

有趣的是,恐怖谷效应在书面文字中似乎不太明显。LLM 生成的文本可能措辞完美、逻辑清晰且信息丰富,但我们通常不会像看到“几乎像人”的机器人那样感到不安。这可能是因为书面文字不如视觉或听觉刺激那样直接、那样具有人情味。我们的大脑有更多时间来处理信息,并且较少依赖本能反应。

然而,当声音介入时,情况会发生巨大的变化。现代基于人工智能的语音合成器可以创建栩栩如生的人类声音,几乎与真人声音无法区分。问题就出在这里:如果声音听起来完美像人,但其背后的实体却不是人类,恐怖谷效应就会被放大。

为什么声音更令人不安?

  • 亲密感: 声音是一种比文字更亲密的交流形式。语调、语气的变化和强调都蕴含着关于情感、意图和个性的丰富信息。如果这些要素感觉“不对劲”,我们的大脑会立即发出警报。

  • 预期: 当我们与某人交谈时,我们会持续地——大部分是下意识地——评估他们的口头和非口头线索。对于人工智能语音,这些线索在技术上可能是完美的,但却可能缺少一些无形的“人性”要素,从而使体验令人不安。

  • 失控感: 我们可以随时停止阅读书面文字或重新阅读。然而,在基于语音的互动中,我们对情况的控制权较少。这种控制感降低的感觉会加剧焦虑。

语音人工智能中的恐怖谷效应

  • OpenAI 的语音模型: ChatGPT 背后的公司 OpenAI 也在大力开发基于语音的人工智能。他们早期的模型,如 GPT-3,可以生成令人印象深刻的文本,但语音合成仍然存在缺陷。较新的模型,如 GPT-4,具有多模态功能,可以处理文本和图像。OpenAI 模型可以将文本转换为语音。虽然这项技术在不断发展,但早期版本的语音有时听起来可能“机械化”或“不自然”,从而可能引发恐怖谷效应。OpenAI 公开表示,该技术仍在开发中,并考虑了伦理方面(例如,语音克隆的危险)。

  • Sesame AI: Sesame AI 是一家由 Oculus 联合创始人 Brendan Iribe 创立的初创公司。该公司专注于“对话式语音”,旨在跨越恐怖谷。Sesame AI 提供名为“Maya”和“Miles”的虚拟对话伙伴,该公司声称这些伙伴具有“革命性”技术。他们的声音听起来自然,表现出情感波动和音调变化,并且可以记住之前的对话。Sesame AI 强调“语音 присутствие”的重要性,这意味着不仅仅是 слова,还有语调、停顿和强调听起来真实自然。据一位试用过 Maya 的 ZDNet 记者称,对话感觉“出奇地像人类”,让他们几乎忘记了自己是在与人工智能对话。《Ars Technica》杂志的一篇文章指出,Sesame AI 的声音是动态的、富有表现力的,甚至包括“缺陷”,如呼吸声、轻笑声或自我纠正的口误。

  • Google Duplex: 谷歌的 Duplex 技术,作为谷歌助手的一部分进行演示,可以拨打电话(例如,预订餐厅)。然而,Duplex 的初始版本恰恰因为恐怖谷效应而引发争议:它的声音太逼真了,以至于接听电话的人不知道自己是在与人工智能对话。这引发了伦理方面的担忧,谷歌后来修改了系统,使人工智能在通话开始时会表明自己的身份。

  • 语音克隆: 语音克隆技术允许复制任何人的声音。这项技术具有巨大的潜力,但从恐怖谷效应的角度来看,也可能 очень 危险。例如,用已故亲人的声音说话的人工智能可能会 одновременно 让人感到安慰和 глубоко 不安。

机器人制造商与避免恐怖谷效应

机器人制造商深知恐怖谷现象,并采取各种策略来避免它:

  • 风格化的外观: 许多公司没有试图制造完美的人形机器人,而是选择风格化的“卡通化”设计。这些机器人看起来可爱、友好,并且不会给人留下“试图”成为人类的印象。例如,软银机器人的 Pepper 机器人或索尼的 Aibo 机器狗。

  • 非人形形态: 有些机器人根本不像人类。这些机器人通常执行特定的任务(例如,清洁、仓库物流),在这些任务中,功能比外观更重要。

  • 有限的互动: 许多机器人被设计为仅在有限程度上与人类互动。例如,信息台的机器人可能只会回答简单的问题,而不会进行长时间的对话。

  • 透明度: 人们知道自己何时在与机器人或人工智能交流非常重要。公开承认人工智能的本质可以减少不信任和焦虑。

  • 关注情商: 一些公司,如 Hanson Robotics,正在努力使他们的机器人不仅栩栩如生,而且还具有情商。这种机器人可以识别和响应人类的情绪,从而可能使互动感觉 более 自然。他们的机器人索菲亚就是一个著名的例子。然而,这种方法也存在风险,因为真实地模拟情感极其困难,而失败可能会加剧恐怖谷效应。

未来的挑战

恐怖谷效应为技术进步带来了重大挑战。随着我们创造出越来越逼真的机器人、动画和虚拟角色,我们必须更加密切地关注避免这种令人毛骨悚然的效果。研究人员和开发人员正在不断努力理解和克服恐怖谷效应,目标是在未来实现更顺畅、更自然的人机交互。

结语

恐怖谷效应——那种由几乎像人的机器人、栩栩如生的动画,甚至是过于完美的人工智能语音所引发的奇怪、令人不安的感觉——不仅仅是一个技术障碍。它实际上就像一面镜子,映照出我们自己。它提醒我们,我们的感官是多么的精细,我们是多么本能地寻求人类的特征,以及真诚、真实的联系对我们来说是多么的重要——即使这种联系可能是与一个 искусственный 实体建立的。

当然,最初的反感、“令人毛骨悚然”是一种 естественная 反应。我们的大脑经过数千年的进化,已经 специализируется на 探测最细微的差异,并在某些东西感觉不对劲时发出警报。但是,如果我们超越这第一反应,本能的反应呢?如果我们接受在未来,我们将越来越多地与那些几乎像人,但又不完全像人的实体互动——无论是 физические 机器人、虚拟助手,还是来自我们手机的声音呢?

也许重点不是让这些实体完美地模仿人类。也许更重要的是学会与它们共存。重要的是找到这些技术真正能够帮助我们的领域:在执行日常任务、沟通、教育、医疗保健,甚至对抗孤独方面。

试想一下:一位独居老人可能并不需要一个完美逼真的人形机器人护理员。也许一个风格化的、友好的机器人,提醒他们吃药、给他们读新闻、和他们聊聊天气,会更有帮助。一个不仅能回答我们的问题,还能理解我们的情绪并做出相应调整的虚拟助手,可能会让我们彼此更加亲近,而不是疏远我们。

未来的关键可能不是完美的模仿,而是和谐的协作。 это 找到人与人工智能之间的平衡。 это 在拥抱技术带来的好处的同时, сохранение 真正使我们成为人类的东西:同情心、创造力、想象力以及彼此联系的能力——即使这种联系有时会让人感到 немного... 恐怖谷效应。

Gábor Bíró 2025年3月11日