北京学区房
唉,说起这个,感觉就像突然间,全世界都在谈论一个新来的、有点神秘的庞然大物。你打开手机,刷着刷着,新闻里、朋友圈里全是它。什么能写文章了,能编程了,能跟你聊天了,说得神乎其神。这背后到底是个啥?大家嘴里念叨的那个 大语言模型,究竟是个什么玩意儿?
对我来说,它最开始给我的感觉,不像是个程序,倒更像是个…呃,一个被强行塞进了整个互联网和能找到的一切书本的超级学生?或者说,更贴切点,像一个吸收能力惊人、无时无刻不在阅读的 巨型海绵。它不是学了知识点,而是吞下了 海量的文字数据——你想想,是多海量?可能是我们地球上所有图书馆藏书加起来再乘以几百几千倍,再加上网上那些能爬到的公开信息,论坛帖子,新闻报道,小说,代码… 简直是宇宙级的阅读量。
所以,大语言模型 的“大”,不是开玩笑的。它体现在两个地方:一个是刚才说的 训练数据 的量,大得吓人。另一个是它内部的结构,用行话讲就是 参数 的数量。这玩意儿的参数量,动不动就几百亿、上千亿,甚至上万亿。你可以把这些参数想象成它大脑里的“神经元”或者连接点,数量越多,理论上它能记住的模式、能处理的复杂关系就越多。这不像我们以前见的那些小程序,几兆几十兆,这动不动就是几百个G甚至上T的模型文件,庞然大物可不是白叫的。
那么,这个“巨型海绵”吞下了所有文字后,它到底学会了啥?它是真的“理解”了吗?我觉得这里就有点意思了,也是很多人容易误解的地方。它学的,与其说是“理解”世界,不如说是学到了文字的 统计规律。简单点说,就是预测 下一个词 是什么。
你看啊,我们说话写字,是不是都有一定的习惯?比如我说“天上下了”,你接着肯定会想到“雨”或者“雪”,不太可能是“披萨”吧?模型就是干这个的,而且它不是基于一点点经验,它是基于它吞下去的亿万兆字的经验。它学会了在“天上下了”后面,“雨”出现的概率最高,“雪”其次,“披萨”的概率趋近于零。它就是在做这样的概率计算,一层一层推导下去。你给它一句话,它就算出这句话后面最可能出现的词,然后根据这个词再算下一个最可能的词,就这样 一个词一个词地生成,直到生成一段看起来通顺、甚至非常有道理的文字。
所以你看,它并没有真的“想”,也没有真的“懂”你给它那个问题背后的世界运行原理,它只是一个极度擅长 模仿和续写 的大师。它模仿的是它在训练数据里看到的各种文字模式、风格、信息结构。
但别小看这个模仿和续写的能力,当这个能力达到一定程度的时候,会产生一种非常奇妙的现象,我们管它叫 涌现能力 (Emergent Abilities)。就是说,当模型规模(数据量和参数量)小的时候,它可能只会简单的续写,写出来的东西傻傻的。但突破某个临界点之后,它突然就好像会了新的本领,比如,你没明确教它翻译,它读了大量的平行文本(同一句话的不同语言版本)后,自己就学会了翻译;你没教它写代码,它读了大量的代码和相关的文字描述后,自己就能给你生成一段可以运行的代码;你给它一个没见过的复杂指令,它也能拆解分析,给出看似合理的回答。这种“好像突然开窍了”的感觉,就是涌现。这也是为什么大家突然觉得它们“聪明”起来了。
当然,它不是万能的。刚才说了,它是基于统计和预测,不是真正的理解。这就带来一个很头疼的问题: 幻觉 (Hallucination)。就是它会一本正经地胡说八道。因为它是根据概率生成,有时候最符合统计规律的那个词或者那句话,在现实世界里根本就是错的,甚至是凭空捏造的。比如你问它一个不存在的人或者事件,它可能会编造得有鼻子有眼,甚至连参考文献都给你列出来(当然那些文献也是它编的)。它并不知道自己在说假话,它只是算出来“这样说”最像它学过的那些“真话”的模式。这就像一个超级会模仿的学生,他可能模仿老师的语气和板书模仿得惟妙惟肖,但如果他学的知识本身就是错的,或者他理解错了,他输出的就全是错的,而且他还对此深信不疑。
所以,你跟它打交道,得留个心眼。不能它说什么你都信,特别是涉及到事实、数据、专业知识的时候,一定要自己去核实。它是个非常有用的工具,可以帮你写草稿、理思路、翻译、找灵感,但它不是一个拥有智慧和良知的伙伴。
总的来说,大语言模型,在我看来,就是一个通过吞噬天文数字般的文字,学会了极其高超的文字接龙技巧的程序。它强大到能模拟人类的语言表达,甚至在某些任务上表现出惊人的能力。它改变了我们获取信息、生产内容的方式,甚至让我们重新思考“智能”到底是什么。但这只是一种 计算意义上的模仿,是基于模式识别和概率预测的。它没有情感,没有意识,不理解它说的内容在现实世界的意义。它是我们这个时代科技发展的一个里程碑,一个令人惊叹但也带着些许不确定性的 黑色魔盒。我们正在打开它,探索它的边界,也被它改变着。而它到底会把我们带向何方?说实话,谁的心里都没个准谱儿,但它确实已经来了,并且正在深刻地影响着我们。
相关问答