阅读设置

20
18

第321章 语言的原罪:AI的天花板 (2/3)

“自然语言,”他在文档上敲下第一个标题,“无论中文、英文,还是任何人类语种,都有一个与生俱来的‘原罪’。”

他的思绪回到自己深耕十年的sap领域,那些庞大而严谨的系统,最终都依赖人来输入数据,而人,使用语言。

“这个原罪就是:语言所指代的,并非真正的‘实物’或‘意义本身’,而是一个被社会群体强制定义、约定俗成的‘含义’!”

语言、文字,其实是一套符号系统,这是当初在北京做项目时,偷师学到的。

张伟回忆起当时教授的讲课:

“看,中文的‘山’,发音是‘shan’,字形是三个竖线加一个基座;英文的‘untain’,发音完全不同,字形更是风马牛不相及。但是,它们指向的是同一个客观存在——那个在地球表面隆起的、高大稳固的地貌实体。”

“‘山’≠山本身!‘untain’≠山本身!”教授用力敲下这两个不等式。

“它们都只是符号,是标签,是任意的指代。实物、文字、语音,这三者之间在物理上本无任何必然联系,是人类文明用数千年的时间,强行将这三者捆绑在一起的,赋予了它们共同的‘意义’。”

“而我们的人脑,在处理语言时,有一个专门的区域负责这种‘翻译’工作,它将内在的‘意思’或脑海中的‘意象’,转换成特定的语音波动或文字形状输出,同时将接收到的语音文字,再‘翻译’回内在的‘意思’。我们输入输出的,从来不是‘意义实体’本身,而是它‘指代’的文字或语音!”

张伟大脑犹如被注入一股神秘的力量,感觉一扇通往底层逻辑的大门被瞬间推开:

“所以,自然语言不是‘意义本体’,它只是一套庞大而精巧的‘指代体系’、‘一套符号系统’!”

“而现在的ai,基于transformer架构的大语言模型,它的全部养料就是人类产生的海量自然语言语料。

它学习的,不是‘山’这个实体为何物,不是它的地质构成、生态分布,而是‘山’这个字符、这个符号,在数以亿计的文本中,与‘高’、‘水’、‘攀登’、‘稳重’等等其他字符之间的统计关联性和共现概率!”

“transformer不是在理解世界,它只是在理解和模仿‘人类定义和描述世界的方式’!”这个结论让张伟感到一阵战栗。

ai被困在了一个由人类编织的、名为“语言”的符号牢笼里。

它能模仿理解,因为它学习了所有模仿的套路;但它永远无法“自证”理解,因为它从未触及理解的对象本身。

张伟脑海中,浮现出一幅生动的图景:无数词汇、字符、标签,如同拥有生命般在空中漂浮、缠绕、编织,最终形成一个巨大无比、密不透风的茧。

ai就在这个茧的中心,它透过符号的丝线观察世界,以为看到了全部,实际上看到的只是符号与符号之间的关系网络。

“符号茧房……”张伟低声念出这个词。

这是比“信息茧房”更底层、更可怕的禁锢。

“信息茧房只是让你看到你想看的,而符号茧房,从根本上决定了你‘能’看到什么——你只能看到符号,以及符号的排列组合。”

张伟意识到,之前担忧的“智慧茧房”,其根源正是这个“符号茧房”。

当最顶尖的智慧工具,其思考的基石只是符号的概率游戏时,整个文明的智慧上限,似乎也被隐隐锁定了。

思维继续深入,张伟开始比较起不同的语言体系:

“英语这类表音文字,字形本身没有意义,只是记录语音的符号,语音承载了全部意义。

而汉语这类表意文字,‘山’的字形本身就模拟了山峰连绵的形象,‘音’和‘形’都参与意义的构建。

从信息密度和表达效率上看,汉字确实更高。”

“但是!”张伟思维一转,“无论表音还是表意,都无法逃脱自然语言的‘原罪’都是一套符号——符号不等于意义本身。

这就像是五十步与百步的区别,或许汉语走的‘步数’少一些,效率高一些,但依然没有抵达‘意义’的终点。

它们都共享着这份与生俱来‘假事实’的基因。”

最终的推论水到渠成:

“既然输入给ai的语料,是经过人类‘翻译’的、充满‘指代’的符号集合,是一个‘假’的意义实体(因为自然语言它不是本体),那么,无论transformer模型多么强大,它的内部运算多么复杂,参数多少万亿,它最终输出的,也只能是基于这些符号关联所生成的、看似合理的‘假’内容。”

“它无法创造它从未‘体验’过的意义。”张伟想起了那个经典的例子,“就像宋朝的ai,永远无法推演出相对论,因为它的语料库里没有相关的符号和关联模式。一旦触及边界,它只能‘幻觉’,只能胡言乱语。”

“‘garbage

in,

garbage

out’,垃圾进去,垃圾出来!”张伟再次回忆起实施sap项目时,反复向客户强调的这个铁律,“erp系统如此,现在的ai,在更深刻的层面上,同样如此!它的天花板,在它选择以自然语言作为唯一食粮的那一刻,就已经被注定了。”

论证了“原料”问题,张伟开始思考“转化”过程的‘智能’损耗。

他在屏幕上敲下了新的标题:《自然语言→智能:一场注定损耗智能的转换》。

“语言与实体之间,每经历一次转换,就损耗大量的信息,”张伟写道,“这正是构成智能天花板的另一个核心因素。”

张伟的思维跳跃到物理学里,找到了一个绝佳的类比:

“现在的ai,就像第一次工业革命的蒸汽机!”

张伟开始详细阐释这个比喻:

“蒸汽机的工作方式是什么?

燃烧煤(化学能)→加热水产生蒸汽(热能)→推动活塞(机械能)→获取到‘动能’。

化学能经过多次转化,才得到有限的、可供使用的机械动能。

每一次转化都伴随着巨大的能量损耗,效率低下,注定无法推动沉重的物体飞上天——飞机。”