发布于 2026-01-06 7 阅读
0

别再把LLM称为人工智能了

别再把LLM称为人工智能了

太长不看

本文解释了为什么LLM是有用的工具,但称其为“人工智能”是愚蠢的营销废话,会导致错误的决策、浪费金钱和不切实际的期望。

炒作无处不在

当我浏览 LinkedIn、Reddit 或各种博客时,我总是看到一些关于我们未来的令人厌烦的说法:人工智能很快就会取代几乎所有工程师,改变世界,或者,取决于说话的人是谁,奴役我们。

这只是营销手段,笨蛋。

人工智能不过是个营销口号。因为营销就是这样,它大肆宣传,兜售的却是虚幻的真相。

我们从技术上讲所说的人工智能只是对“智能”的模拟。

以大型语言模型为例。它并非魔法,没有意识,也不智能。

  • 庞大:它所使用的训练数据量极其庞大。
  • 语言:其主要功能是处理和生成人类语言。
  • 模型:它是一个统计模型,一个计算框架,而不是一个生命体。

图片生成器也面临着同样的问题。

我知道这很无聊,但一切都没有改变,也不会改变:所谓的人工智能利用世界知识进行训练,用三四个手指画人。

即使到了 2025 年,使用 Dall-E、Gemini、Stable Diffusion、Flux 等不同的工具,我仍然会遇到这个问题。特别是当你需要处理的内容比一张可爱微笑人物的简单肖像更复杂时。

技术不同,局限性相同:它们是模式匹配机器,而不是智能创造者。

智力是一个含义丰富的词。

人类的“智力”是多方面的,包括推理能力、解决问题的能力、创造力、情感理解能力、社交技能等等。

语言学习模型(LLM)可以执行某些被认为是“智能”的任务(例如生成连贯的文本、回答问题,甚至编写代码)。但这种“智能”是狭义的,仅限于其训练所用的数据以及控制响应的算法。

语言模型缺乏常识、直觉,也无法像人类那样真正从经验中学习。它们的“理解”是统计性的,而非概念性的。

这就是为什么你会看到虚假的事实、损坏的代码和三指肖像。当然,或许有一些变通方法,但你无法修补根本的缺陷。这些不是漏洞,而是系统本身的特性——它假装理解,但实际上却一无所知。

个人经历

我与LLM合作多年,目前在我的garlic-hub项目中也利用他们的支持。

他们在研究、翻译、摘要、代码解释、概念化、原型设计和文档编写方面具有优势,但在编写生产代码方面则不具备优势。

即使有了精确的提示,你也常常会得到不一致、糟糕的代码,一碰就坏。

让我们尝试根据您自己的类编写单元测试,尤其当它们不仅仅包含 getter 和 setter 时。

除此之外,你还会发现以下这些奇特之处:

  • 私有方法测试
  • 嘲讽继承的方法
  • 甚至嘲笑考试班
  • 命名不一致,尽管提示很具体。

首先要明确一点:单元测试旨在测试独立、易于管理的代码片段。如果一个标榜“智能”的工具连一个类的测试都无法可靠地编写,它又如何能实现软件开发自动化或统治世界呢?

但你需要正确使用它。

如果某件事没有按预期进行,典型的回应是:“你用错了。”

人工智能的拥护者们坚持认为,你需要改变你的编程方式;不要再做程序员,而要开始做软件工程师。

他们的愿景:创建所需模块的详细文档,然后让代理完成工作,包括单元测试。

如果代码有缺陷或需要修改,就更新文档,让代理重新生成代码,然后再进行审核。他们把这叫做“感觉编码”,据他们说,这能节省大量时间。

乍听之下似乎合情合理?让我们深入探讨一下。

节省时间的迷思

当然,开始做一件新事往往能很快见效。至少一开始是这样!但最终,它会消耗越来越多的时间。

为什么?

  • 技术债务:人工智能生成的代码通常存在诸多问题,例如性能欠佳、漏洞百出、难以维护、文档不完善、安全性低或可扩展性差。仅仅“能用”是不够的。
  • 调试和修正:调试、修复错误或稍后向此代码库添加新功能比手动编写干净的代码更加费力。
  • 缺乏理解:现实情况是,人们可能在第一次使用时会进行审查,但由于代码起初看起来运行正常,他们往往会在不理解实现决策的情况下盲目采用。这使得维护和变更风险很高。
  • 重新开发:如果系统需要增长或扩展,vibe 代码可能会变得非常难以使用,以至于需要完全重新开发——从而抵消所有最初节省的时间。

眼前的生产力提升(快速原型制作)本质上是对代码库未来的“高息贷款”,而这笔贷款日后将以高昂的维护成本的形式偿还。

历史总是重演。

使用第三方库(例如 Node.js 或框架)时也经常会遇到同样的问题。它们确实能节省时间,但软件开发仅仅是开始,长期维护才是真正的挑战。

还记得那些所谓的“无代码”骗局吗?类似的糟糕承诺,不同的标签,最终都以失败告终。

感知效率研究

METR 的一项有趣研究表明:经验丰富的开发人员认为使用 AI 后他们的开发速度提高了 24%,但实际上速度却慢了约 20%。

如果你问那些人工智能专家,他们会嚷嚷说这项研究基于错误的假设,你需要好好学习如何使用“氛围编码”。还记得“你需要正确使用它”这句话吗?

但市场营销只谈论“智能”。每家人工智能编码公司都告诉我们他们的工具多么易于使用,并宣传那些声称无需任何编程技能就能在几天内完成大型项目的“用户评价”。

但是,当你开始根据承诺来衡量一个工具,而它却失败了时,借口就会突然出现:你需要投入无数个小时和几个月的时间来学习

所以结论是什么?难道你要花几个月的时间学习,才能获得那种感觉上比实际节省时间更值得怀疑的效果吗?

你永远不会从人工智能兄弟那里看到这类文章。
你也永远不会看到关于质量保证和代码维护的文章。

初级开发人员问题

另一点也经常被忽略。代码审查需要技巧、多年的经验,甚至可能需要经历一些失败。

如果“感觉编码”成为标准,初级开发人员该如何学习编程?你不可能学会如何审查你从未编写过的代码。我们将培养出一代只会提建议却不会编程的开发人员。他们就像没有专业知识的顾问。

法学硕士培训达到极限

LLM所谓的“革命”其实是基于海量数据的抓取、存储和搜索。那些被不明真相的人称为人工智能的东西,只不过是一个经过高度训练的自动补全功能而已。

但Stack Overflow、YouTube和维基百科都只有一个,我们已经抓取过这些资源了,现在训练材料也快用完了。—— 《对话》(The Conversation)《商业内幕》(Business Insider)

目前广泛采用的解决方案是:使用合成数据,也就是利用 LLM 生成数据来训练其他 LLM。英伟达已经在开发一款名为Nemotron 的合成数据生成器。

与此同时,网络上越来越多的文本是由 LLM 生成的,几乎不可能区分机器生成的文本和人类撰写的内容。

这难道不难看出其后果吗?用人工智能生成的内容训练人工智能,必然会导致模型崩溃和性能退化

AI Bros 对此避而不谈,而那些追逐投资者资金的公司则不惜一切代价继续推进他们的“革命”。

自我驱动的炒作

不幸的是,煽动者、营销人员及其盲目追随者的这种混合体,造成了无休止的炒作循环。

许多平庸的前经理人和过气的企业高管都渴望获得公众关注。有些人受雇于人,兜售某种理念;另一些人则真心认为自己是富有远见的思想家,值得拥有公众的关注。

他们张口就说,空洞无物,毫无意义。他们的追随者也只是在附和。如果你表示怀疑,他们通常会反驳说:“嘿,比尔·盖茨是亿万富翁,他肯定知道发生了什么。” 不,他什么都不知道。他和其他成千上万的人一样,只是在猜测而已。但不知为何,人们却对富人的模糊预测深信不疑,仿佛财富就等于专业知识。

这就造成了一种自我实现的预言:目光短浅的决策者害怕如果不搭上人工智能这趟顺风车就会错失良机。于是,他们开始把“人工智能”贴在所有东西上,不管这是否合理。

最终,这种炒作只会助长一个肆意妄为、资源消耗巨大的行业,导致资金和电力的浪费。

我所在行业更多荒诞事

我所在的行业是数字标牌行业,虽然其他行业也面临着类似的困境,但我们这里的情况简直荒谬至极。
公司不断炮制毫无意义的“功能”,只是为了在首页的某个角落贴上“人工智能”的
标签。

  • 展示聊天机器人:因为显然人们想要与显示广告的屏幕进行对话,而不是仅仅阅读信息。
  • “AI优化”广告投放:算法会根据用户未要求的指标进行优化,完全忽略实际的广告活动目标。AI决定什么是“最佳”,而不是你的业务目标。
  • 预测性受众人工智能:声称能够预测受众行为并基于小得可笑的数据集生成令人印象深刻的预测结果的工具。输入垃圾数据,输出“洞察”。
  • 年龄/性别估计:这项计算机视觉技术已经存在多年,现在被重新包装成“人工智能驱动”。它在嘈杂的环境中表现不佳,难以应对不同的视角,而且提供的数据也很少具有实际应用价值。

这些都无法解决实际问题。新软件功能的开发应该以客户痛点为导向,而不是为了迎合市场部门对流行语的渴求。

每当您看到数字标牌公司大肆宣传人工智能时,请记住:它不是为了帮助您或您的企业而设计的,而是为了向您推销产品。

别再把LLM称为人工智能了

我并不担心会出现像《终结者》那样的未来。这种方法不会导致技术奇点。

这个行业现在遇到了问题,因为他们已经抓取了大部分可用的数据。

计划生成合成数据进行训练会导致退化。

逻辑逻辑模型(LLM)是一种非常有用的工具,它能够出色地模拟人类行为。仅此而已。它可以执行一些看似智能的任务。

但它们的能力仅仅是数据和算法的反映,并不代表真正的意识或类人智能。

事实是:法学硕士(LLM)不过是会说话的计算器。没人担心计算器会取代数学家。别再幻想自动补全功能会取代工程师了。

文章来源:https://dev.to/sagiadinos/stop-calling-llms-ai-1ihk