阅读视图

发现新文章,点击刷新页面。

诗和远方

最近头痛时不时复发,只能强制自己远离工作的紧张节奏,专注于自我的平和。

某种意义上,我其实很适合高强度的工作。压力越大,越是冷静。这可能是以前工作训练出来的,也可能是飞行执照训练出来的。当周围的人都进入狂暴模式的时候,我却一如既往的淡定,稳如泰山。我可以一个个劝住,在大家都手足无措的时候指明方向。工作是长跑,是漫长的登山,越是困难越让我冷静。

某种意义上,我其实是很适合硅谷的丛林法则的。这也可能是这么多年来我在工作上并没有遇到太多天花板,一直能找到突破的方向的缘故。不给自己设限,也便有了无数的可能。

但是,退一万步讲,这真的是我想要的生活吗?功名利禄,好像并没有我真正在乎的。钱变成了数字,让我感觉越来越陌生。我的生活质量并没有因为钱而变得更高,反而失去的时间和自由让我会不时感到窒息。最快乐的日子并不是多了多少标签,而是沉浸在自我的世界中专注。能感受到自己还活着,并非行尸走肉。

年龄越大,越觉得自己跟同龄人的割裂,一种宛如代际的割裂感。他们的高谈阔论,我的诗与远方。我试图融入,可是越融入越痛苦。索性不再假装,索性回归本心。 人生苦短,何必过多地向现实妥协。或许我太早地被经济学的功利主义洗脑,却也侥幸早早得以看清功利主义的局限。

愿我可得一世自由。

从心所欲

吾十有五而志于学,三十而立,四十而不惑,五十而知天命,六十而耳顺,七十而从心所欲,不逾矩

年轻的时候并不是很能读懂这段话,年纪大了才恍然时间快进。

现在的日子基本上是 知天命、耳顺、从心所欲的阶段了。每天看着聒噪的人群,我已经心生羡慕。和长者的间隙已经远远小于和二十多岁年轻人的代沟。是从什么时候开始,经历了什么,让我的人生越来越勇敢,也越来越无所谓了呢。

初心还在吗,还在的。梦想还在吗,还在的。那一束束不曾泯灭的光亮,闪耀着年少与年长。

放下的越多,只能说明人越来越老,力不从心。跨越千山万里,只为回眸一笑,是一种人生。和猫一起睡到天昏地暗,也是一种人生。习惯了疯狂之后,人生好像也没什么界限了。

从心所欲,不逾矩,却也不设限。

人生的随意

年龄越大,越不喜欢被束缚和规划。随心所欲好像是更重要的人生体验。

在加州待久了,多少会觉得一种割裂。明明是青山绿水随意挥洒,却又被束缚在一些特定的节奏上。周围的人都是忙忙碌碌的,大家都习惯了像一个机器一样不眠不休。然而我做不到,我喜欢的是每天醒来的未知和不确定性。太完美的节奏让人丧失创造力。

可能我确实不适合加州,不适合一种集体主义下淹没的个性的自由。更随意一点,人生也就更丰富。

想回欧洲,想念选择的自由。我不想最终成为自己曾经讨厌的人。年少时候经历的自由的滋味,会影响一生。

有的时候只想有点背景音的时候,我会无意识的播放一些法语的东西。可能在我的潜意识里面,法语所关联的是一种无所畏惧的心态,是灵魂的自由,是众人皆醉我独醒的小小优越感。

若为自由故,若为自由故。

归纳法对世界的改造

从简单的统计模型,到后面的计量经济学,到机器学习,到现在的人工智能,过去的二十年是归纳法大发展的二十年。为什么只看二十年呢,因为二十年前的园主不知世事,超出认知范围之外了。

经济学在大规模应用计量经济学之前,一直是和物理学神似的,也被叫做社会科学中的物理学。而计量经济学的发展与突破也不是纯属巧合,主要是大规模经济金融数据的爆发。

早期的计量经济学,无论是宏观还是微观,其实都还是有深深的“结构化”的影子,就是需要一个结构化的模型来解释为什么会这样,有一堆变量和与之相对的系数,然后再用数据来估计系数。现在回头看,这个时期的计量经济学还是停留在一个“辅助”的阶段,数据的价值只是帮助计算系数。

然后计量经济学就向着弱结构化的方向一去不复返。可以说这是理论的发展赶不上数据的爆发,也可以说是人们渐渐失去了对结构化的理论的执念。这大概等同于量子力学之于传统物理学的革命,人们开始接受这个结构的模糊化。可就算是在这个阶段,人们的执念还是“因果关系”,直到今日计量经济学还是把因果推断作为其存在的哲学本源,试图从归纳法的角度倒推演绎法需要的因果关系。

然后随着机器学习的大爆发,人们从开始的“预测”和“因果推断”是两回事,到逐渐的审问自己,为什么对因果有这么强烈的执念?退一步说,到底什么是因果关系?这个时候才发现,因果关系其实在哲学上的定义也不是那么得清晰。园主在这里就不挖太深了,否则填因果这个坑就要填好久。

这些年,随着大语言模型的爆发,人工智能好像又解锁了一个新的阶段。虽然一边说着大语言就是一个预测方向无意的突破,另一边园主却看到人工智能落地层面对于结构化关系的依赖性慢慢减弱。以前我们的解决办法是对一个问题不断地细分梳理,然后逐个攻破。而现在大模型的冲击就是,我们真的有必要这样分解问题本身吗?如果深度学习模型本身可以就自动学出来一个等同于以前结构化的东西,就算我们没有办法把它明确的表达出来,哪又如何呢?

到这里,深度学习无疑是冲击到一个哲学层面的问题。当数据远远超过了理论的发展的时候,是不是演绎法的价值就远远不及归纳了?我们是像以前那样路径依赖,一定要对问题做一个外科手术一样精准的分解,还是可以容忍结构慢慢演变成一个黑盒子,给它无尽的自适应的能力,然后只需要关注结果就可以了?

这一波深度学习对于人工智能的冲击,我觉得体现到最后, 其实可能是一个去结构化的冲击。我们选择放弃对于结构关系的清晰表述,然后拥抱强化的预测能力对于世界的适应和改造。

人们对于深度学习和大模型的恐惧在于我们无法解释、进而无法控制。一旦我们适应和接受,下一步就是挖掘其无尽的潜力,实现下一轮生产力的爆发。

无论如何,我还是看好科技发展与世界进步的,就算过程中会有无尽的波折。

AI时代的摩尔定律与赢者通吃

技术的发展真的是让人感慨自身的局限与保守。看完今年CES Nvidia的发布会,感慨就是赢者通吃。当你有了一个基于硬件算力的软件通用平台,就像发电机接入了电网,应用层面的爆发就是只争朝夕了。

以前听闻摩尔定律,觉得指数式增长简直天方夜谭。而今看AI的发展速度,确实是指数级别的爆发。

这有多么颠覆呢?以前学经济学的时候有个概念叫做自然垄断,就是一个东西的规模成本导致这个市场只需要单一生产者(或者少数寡头)就足够了。最典型的就是基础设置比如水和电,公路网铁路网等。

AI的规模的乘数效应之强大,自然而然形成了一个新的基础设置。自然垄断最后的结果一定是政府规制,而AI还处于一个野蛮生长的阶段,赢者通吃。

作为一个宏观经济学渣,唯一记得的经济增长模型就是里面有个外生的科技进步系数,这个系数决定了经济增长的上限。没想到,在有生之年,居然能看到这个系数又一轮的变化,工业革命的井喷。

哎,虽然无法直接贡献到技术增长本身,但身在其中还是让人心潮澎湃,感慨命运的眷顾。

2024总结

例行回顾一下今年都发生了什么吧,毕竟年纪大了记性不好,不写下来容易忘事儿。

第一条,应该是今年是过去十几年旅行最少的一年。除了十月份去了一趟Bora Bora,整一年都没有出门玩。最主要的原因自然是家里有个小宝贝拴着,没法轻易地出门。短途的旅行也几乎没有,原因一是没车,二是小宝贝窝里横出门就怂,我也只能跟着家里蹲。有个高敏宝宝还能咋样呢?这打字的功夫人家往我怀里一窝,圆滚滚的小脑袋往手心一倒,咕噜咕噜地开始踩奶,老母亲还能咋的,投降呗。

真的,过来人的经验,养猫就应该一开始养两只,兄弟姐妹那种一起长大的,否则一个猫在家里太孤独了,也没法接受新的陌生猫。只能自己充当另外一只大号猫室友了。

说到毛孩子,就不得不说一定要去买宠物保险,至少在美国。今年夏天小毛球动了个手术,吓得老母亲签字的时候手都在抖,然后整个人浑浑噩噩地找了个图书馆等着。好在最后恢复得不错,老母亲只是看到账单又心痛了一下。最后保险报了大部分,算是风险共担了。

第二条,说说学语言吧。目前的强迫症是每天必打卡doulingo,法语已经刷完了就每日复习一下下。今天打完卡,800天完成,也是一种坚持。然而真正的法语使用能力却一直在退化,毕竟离开了语言环境。不过鉴于在法国的时候我的英语也一直在退化,回到美国后英语就自然而然恢复了,希望后面法语也有机会不时恢复一下吧。

第三条,感慨一下消费降级吧。看了看今年的账单总结,对比以往,自己是反而越来越不会花钱了。以前水果零食没断过,现在去costco都不知道买啥。车到现在也没买,也是选择困难症也是觉得养车太麻烦。可能唯一多消费了的就是租房,换了个大点的房子我和猫都爽一些。然而过去几年频繁的搬家让我对于大件物品的购买愈发谨慎,连衣服几乎没怎么买,除了一些必要的更换。这是一种奇怪的消费降级,主要是心态上不知道怎么花钱会让自己更开心了,反而觉得花钱很麻烦,索性就不花了。这样不好,明年争取找到新的花钱的方向让自己兴致更好些。

2024也算是折腾了不少,也是增加人生记忆的一年。


再加一条,2024长胖了,衣服都穿不进去了,人到中年果然一不留神就发胖。

历史的痕迹

每到一个新的地区,我便会在地图上做个标记。就在前阵子,无意中拜访了最后一个大洲,完成了七大洲的拼图。细细的数着,尚缺失的就是撒哈拉以南的非洲了。翻看回忆,我大概也是见识过一些浓缩的历史。

我们这代人,出生后不久苏联就解体了,导致我们对冷战的了解大多来源于历史书和电影。平心而论,我对冷战、第二次世界大战、第一次世界大战,和对三国时期的理解,并不见得有那么多的迥异。直到后面,在巴尔干半岛上流传的南联盟的誓言,在雅尔塔徘徊的三巨头的对话,在诺曼底呼啸的海风,在奥斯维辛锈迹斑驳的窗户,在瓦尔帕莱索沉吟的诗句。二战的历史就这么鲜活地展示在新一代人们的面前。可能应该再去看看柏林墙的痕迹,才能具像化盛极而衰的一丝丝印记。

走过亚马逊丛林,看到了石器时代和现代工业的微妙共处。沿着巴塔哥尼亚,南美洲一点点刻印着从发现新大陆到殖民地到奴隶生意的历史。顺着洋流,在一个个人间天堂的岛屿上,快速穿插着同化的默契。历史不会消失,只会一层层地堆积着一代代人的记忆。

加州的生活,对我来说,还是太单调了些吧。

家庭常备药

由于过去两年连续搬家,我不得不回归极简主义,能不带的就不带。大部分情况下这其实是是个很好的解决方案,让我越来越能想清楚什么是必要的什么纯属囤积癖。

但俗话说得好,不怕一万就怕万一。在我一轮又一轮的清理物品过程之中,优先清理的就是会过期和已经过期的东西,比如药品和化妆品。比如,上一瓶泰诺还是covid之前买的,一大罐子直到过期也没用掉多少。然后在法国的时候就悲剧了一次,过敏药也被我清掉了,于是某次食物过敏突发寻麻疹,又赶上大周末的,满巴黎搜了半天才在游客区找到一家开门的药店,赶紧冲进去买了法国版的抗过敏药。药到病除是必须的,否则当晚可能就无眠了。

这次也是大意了,一直拖拖拉拉没有检查自己的药箱。然后就murphy's law,赶上独立日,突发高烧。也不知道是怎么个情况,想检测个covid发现没有检测棒,查了一下附近的检测点也都关门了。想出门买发现没有口罩,想吃点对乙酰氨基酚发现家里没药。纠结了半天,还是硬着头皮找到一家开门的cvs买了个检测棒,走自助结账安慰自己至少保持了社交距离。

检测出来结果是负的,长舒一口气。但发烧流涕嗓子发炎还是逃不掉,买了一大瓶对乙酰氨基酚凑合过着。还好有些csv在独立日是开门的,否则我又一夜无眠了。不知道若是赶上圣诞是不是就彻底寄了,只能真的一夜无眠了。

还是要乖乖的囤一点药。比如对乙酰氨基酚是一定要囤的,泰诺或者其他牌子都可以。然后就是抗过敏药,我这个食物过敏时不时来一下真遭不住。然后就是消炎抗生素,比如外用的红霉素软膏,内服的头孢青霉素之类。其他可能应该囤点胃药、助消化的、止泻药,口腔溃疡药,等等。最好是我和我的猫都能用的药,因为她生病比我还能折腾,兽药买起来比人用的还费劲。

仅此提醒自己还是要长长记性。

加州的农场主

搬到新家之后发现楼下居然每周六早晨都有农贸市场(farmer's market),有点像国内赶集的样子,很多农夫们会亲自来卖他们自己种的新鲜蔬菜水果什么的。

美国在超市买的很多水果蔬菜其实是没有味道的,比如番茄和草莓,因为商业社会最关心的是好运输,其次才是品相味道等。就算是去whole foods花高价买水果,也免不了偶尔踩雷。

农贸市场就不一样了,首先你可以尝。我第一次去的时候看到一个摊位,一位有点上了年纪的老板娘,一个人只卖蓝莓。看起来蓝莓的尺寸不大,但可以尝嘛。于是好奇地过去尝了尝,发现这才是有滋味的蓝莓,立马下手买了一盒。老板娘叮嘱我说,记得回家不要放冰箱,如果当天吃不完就放在纸盒子上,第二天味道不会变差。

那大概是我这么多年少有的吃到的有味道的蓝莓了。自此之后,但凡我周六上午没事儿,总会下楼去溜达溜达,看看老板娘来没来,来的话我就又有美味的蓝莓了。

今天不出意外,又见到老板娘了。她有着加州人特有的热情,以及对自己产品无比论语的自豪感。在生意不忙的间歇,她就跟我闲聊起来她家农场。她父亲七八十岁的人了,依旧在每天辛勤地打理他们的农场。今天不仅仅见到了蓝莓,还看到了蟠桃,蜂蜜,一些蔬菜和我叫不上名字的一种草。蟠桃没有试吃摆出来,我就问老板能尝尝么。她说这个切了就容易放坏,但非常甜,让我放心买。果不其然,这和超市里看起来很好看却没什么味道的蟠桃完全不同,这是真正有桃子味道的蟠桃。一盒七八个,到傍晚时分,已经被我炫了一大半了。

老板娘还说起,她的农场里其实离我这边四个多小时的车程。这让我多少有些惊讶,因为我们这个农贸市场显然不是附近规模最大的,她为啥特意开这么远的车跑来呢?每次还只看到她一个人。她说,她孩子和孙辈都在这附近住,于是她每周往返于农场和孩子家,顺便周六早晨来农贸市场摆个摊。换句话说,若不是她孩子家在附近,我可能就无缘吃到这么新鲜且有味道的水果了。很多时候,老板娘周五晚上才去采摘水果,这样周六我买到的就是几乎最新鲜的,比超市通过不知道物流链周转多少遍的水果自然是好吃的多。

加州其实是美国最大的农业州。中部谷地形成大面积的平原,适合种植各种对光照温度有需求的植物,比如绿叶菜。临近山区的地方,又适合种植稍微喜寒的果木。很多朋友家的后院都是种啥长啥,让人无比羡慕。在这边超市可以轻易买到各种新鲜的物产,每年夏天便成为了我幸福感最高的季节。

加州的大小农场主们,又有着一种与生俱来的责任感。就算很多东西通过大规模物流超市贩卖并不一定可行,但他们也会通过农贸市场等渠道把最好的产物分享给附近的居民(另一种常见是和餐馆直接签订供货协议,所谓farm-to-table)。

吃到有味道的水果,还可以听听真实的人间故事,也算是添加了新的记忆的一天。

被归纳迭代统治的世界

在这个AI快速改变世界的时代,园主已经从一开始被GPT表现出来的潜在智力的震撼,到现在对于层出不穷的图像视频音频AI工具有点审美疲劳了。去年的时候和朋友们感慨,在归纳和演绎之间,这个阶段归纳的力量远远超越了演绎。算力的突破仿佛像《三体》中描述的突破智子封锁一样,让可以被计算改进的模型都深深享受着巨量数据带来的断层优势,层出不穷地展现着未来的可能性。

AI模型之外,很多产业也都被基于数据的归纳和快速迭代逐渐颠覆着。shein在快时尚的成功,是千千万万的时尚元素排列组合迭代出来的。时尚爆款可能是玄学,但只要样本量足够大、选择足够多,就一定会出现几个爆款,然后只要快速跟进就可以吃到一波流量红利。类似的玩法不仅仅局限于快时尚,但凡是“义乌制造”可以连夜复制出来的消费品,都可以用这个打法。譬如手机壳,原型相对固定,考验的是设计师的创意和流行元素变化。看一个纪录片说,人们平均一个月换一个手机壳(可能是北上广的消费数据),那么消费者对于新意的渴望就成为显而易见的需求。

从文字,到图像,到视频,到落地成为一件工业制造品,快速迭代的可能性充分地考验着人们的贪心。行业之中的人们各司其职, 努力地优化着每一个可以减少成本或者提高效率的环节。那些看似玄学的艺术和非理性,最后也没敌过归纳和迭代的降维打击。

毁灭吧,消费主义快点变回极简主义吧,要不园主实在是跟不上这个光怪陆离的世界了。毕竟这人脑子还是习惯基于演绎的思考,重新训练到归纳的角度有点超出人脑算力和记忆存储的局限了。以有限对抗无限,怪不得庄子说,

吾生也有涯,而知也无涯。以有涯随无涯,殆已;已而为知者,殆而已矣!

附录:看到一个纪录片《这货哪来的》(B站的?)来的灵感,把这些观察串联了起来。

城市,语言与印记

我看的电影电视剧不怎么多, 自我归因是我的情感其实很丰富,容易入戏太深。偶尔沉浸一两次无妨,天天沉浸这就要命了。情感丰富的体现之一就是代入感,容易把自己带入到戏中人物的情感波折之中。若对方所处的情景、地方或文化又是我略知一二的,那就更要命了,会让我不自主地联想起来很多前尘往事。

我是个一直在城市里生活的人,习惯的是密集的楼房里面大家各自忙碌的身影。然而我生活过的那些城市,每一个给我留下的印记又是个有不同的。生活过和旅游过的城市区别挺大的,因为只有认真地去生活过,才会更努力地融入当地的文化,学习当地的语言,才会在心里狠狠地扎根。在中国,北方和南方的文化已然不尽相同。在美国,西海岸的风情独自摇曳。在欧洲,南欧和西欧又相互纠缠。居住城市的变化也伴随着自身年龄的增长和心境的变化,在每一个特定的时点发生的故事并不会那么容易再重复一遍。

最近在看《繁花》。因为年少时在上海生活过一些时间,稍稍能听懂一些上海话,便更有了代入感的韵味。很多东西会随着时间流逝, 却并不是雨过无痕,心中多少留了个交流承载着那时的印记。我一直觉得我是一个勇敢的人,在二三十岁的年龄做了很多看似疯狂的事。回头看,有的时候会惊诧于自己当年那里来的毅然决然的行动力。眼瞅着奔四十岁越来越近,却发现这份勇气已然变成了个性中无法磨灭的一部分,无论外界环境已经如何天翻地覆。这或许是年少的时候在上海滩听过了太多的传说,这或许是旧金山的淘金热和硅谷的创业交错,这或许是巴黎的批判风情和巴塞的特立独行,年少的我血液中一直沸腾着“生于忧患,死于安乐”,绝不会像平淡如水的现实妥协。

每一场冒险都是要付出代价的,每一个决定都是一时冲动的。或许是生活过的城市在我身上留下了这般印记,也或许是我不经意间选择了这些气质特殊的城市。空气中交织的是那些鲜活的记忆片段,亦是倔强的个性。

永不言败。越是困难,越是折磨,越磨练人的心性。

小试自定义GPT

最近不是在折腾LLM嘛,于是就试了两条路子:用openai的api,以及直接在openai的界面里面创建GPT。

前者没啥特别的,chatgpt的api做的很成熟了,from openai import OpenAI 之后直接在python里面调用几个现成的函数就好了。可选的参数其实也不多,主要就是prompt写的好一点就行。我的要求也不高,试了试基本满足。此外我还用到了微软 azure api,也很方便,两者一结合基本一个app就搓出来了,只是暂时还只能在命令行运行,没写前端ui罢了。

后者就麻烦了。我想着自己写前端ui还挺麻烦的,就想偷个懒直接在GPT里面弄弄看看行不。结果呢,现在这个版本实在是太挫了,只支持最最基本的action,虽然可以调用其他api,但还没研究出来怎么实现用户上传的文件扔到action api call里面。搜了搜他们的论坛也没啥结果,然后心累就到此为止了。

最后贴一下如何在openai 的GPT里面调用azure api。主要是api key那里实在是反用户直觉,我找了好久……一定要选 custom 然后把自定义的名字设为 Ocp-Apim-Subscription-Key 才可以。贴个图。

自定义 action -> authentication -> custom header name

当然azure api的文档做的也很差就是了,经常搜出来的是过时的文档,试一试都是404错误。哎,时间都花在这些琐碎的调试bug上了。

最后的结论是,在现在这个阶段,openai GPT的多模态做的还是太封闭,只适用于比较基础的交互需求,得等到后面允许自定义编程更丰富一些才可以。想做的稍稍复杂一点,写ui是逃不掉的了。web版还可以写个python+js凑和一下(flask这么轻量级的web开发框架真的是效率提升利器),app版xcode看了半天发现也是一等一的复杂……说好的ai改变程序开发呢?叹口气……

吾日三省吾身

  1. 逆水行舟,不进则退。每一次偷懒的后果都会反噬自己。
  2. 透过现象看本质。热点永远层出不穷,不能以有限的精力来应对无限的新闻。但也不能两耳不闻窗外事,否则换了人间都不知。
  3. 用进废退。记忆是有限的,不可能面面俱到。

——-

舒适圈还是躺太久了,忘了外面的血腥残酷。

大语言模型LLM的基本逻辑

上一篇说到我准备入个坑,结果就是最近埋头苦苦补习最基本的一些知识。随便写点东西梳理一下思路吧,这样万一我真的开始做点什么也算是一个基本素材。一些英文的名词我就不翻译了,反正现在大家英语都挺好的。

先来一些可以基本望文生义的名词解释。LLM=large language model = 大语言模型。这简直是个不能再俗的名字了。GPT = generative pre-trained transformer ,也是够直白的。

再来个极其简单的(受限于园主阅历)历史回顾。自然语言处理基本上经历了 word2vec, RNN,然后就是现在的transformer了。其实说到底,自然语言处理的基本问题就是一个时间序列问题。当园主意识到这点的时候也是惊掉了下巴,什么,计量里面的时间序列不是Autoregression, moving average,stationary 那些东西么,怎么看都跟自然语言扯不上关系了。后面看到做量化的人都在跟这个方向的进展,才明白说到底都是时间序列嘛。想想也是,自然语言就是一个把词按照特定顺序排列起来的数据,词与词之间的关联和顺序最终表达了一定的意义。

nlp模型想法差不多,就是基于已经有的词,预测对应的下一个词的概率。建模不是问题,但数据上来后计算是问题啊……于是有了transformer 那篇著名的 Attention is all you need,伴随着经典的encoder-decoder结构,就出现了让图灵测试不再是问题的大语言模型们。

再来一轮名词解释。自然语言到建模之前,需要先把unstructured data转换为可以计算的数字,这就是embedding 这一步,也叫token 化。然后再怎么办呢?transformer的核心是再算一下attention 矩阵,这个矩阵主要涵盖了词与词之间关联程度(不贴公式了),然后要做的就是放到神经网络里面去算了。这里有意思的是,encoder里面不只有一个基于attention数据的模型,而是多个,所以称之为 multi-head attention (多头注意力)。为啥需要多个模型呢,因为神经网络很有名的一个feature(bug)是local optima,即随着初始值的不同,参数可能会迭代到一个局部最优。至于全局最优嘛,存不存在都还是个迷。反映到encoder这里,有意思的是每个单独的模型就有可能抓住语言的某一个层面的特征,比如语法,比如逻辑,比如修辞,比如情绪,以及一些语义学还无法解释的神秘模型。但不要紧,大力出奇迹,只要计算机能算得出来就行。

encoder到这里已经可以做很多任务了,最显著的大概是sentiment analysis, 就是判断里面的情绪。比如一个评价是正面负面,或者是关于价格还是物流速度,等等。这些分类模型对于很多应用场景都是很有价值的信息提取过程,也称为auto-encoding。

decoder呢,任务就更直接,就是通过输入的新数据来预测并生成下文。这也是GPT的厉害之处,可以自己写小作文了。所以这一类也叫autoregressive model ,即AR!再看下去,其实decoder的架构和encoder很像,所以他们的并不是模型架构本身,而是任务的目标不同。

那什么时候我们会同时需要encoder和decoder呢?典型的例子就是两种语言之间的翻译。大概的数学任务就是,给定前后的词,来猜中间缺失的词是什么。这一类就是sequence to sequence 模型了。至于模型的评价,现有Rouge, Bleu等指标(怎么都是法语里的颜色……)。

好了,现在我们有一个transformer模型了,就可以高枕无忧了么?当然不是,下一阶段就是,fine-tuning 或者更准确的说,instruction fine tuning。

这一步,说到底就是让模型理解人们的意图。比如,我想让ChatGPT给我写代码,那我就会先给一个指令,help me write a code in python,这样它才可以理解我要的是代码而不是一个翻译任务。这类对于指定任务类型的 instruction 的训练,不仅仅在于理解目的,还牵扯到对于不同类型任务的参数细调。最简单粗暴的,我们可以要求对某一类型任务完全刷新所有参数,即full fine tuning,也可以省点资源,来只训练部分参数,即parameter efficient fine tuning PEFT。近期还有比较有意思的LoRa方法,在原来的参数矩阵外额外训练两个rank小很多的矩阵,最后再把新的两个小矩阵的乘起来,加到原始的参数矩阵上。甚至我们可以对instruct 的数据单独做一个小模型单独训练,然后在embedding 那一步把数据预处理后再喂给encoder or decoder。

fine tuning之后,理论上llm模型已经有了不错的预测能力了,但还需要一步alignment,即通过reinforcement learning 来进一步训练模型给出更符合人们需求的回答,比如 HHS (helpful, honest, harmless)。这一步主要是利用额外的人为标记的数据,比如对于多个候选答案之间的排序等等。当然,我们还可以搞个单独用来打分的模型给GPT的答案打分,哈哈,让机器自动自我修正。

这一些做完,基本上就是chatGPT 的雏形了。然后我们发现,不够,远远不够,一个AGI不能只有对话功能。下一步显然就是多模态Multimodality,即文字语音图像视频等等形式的结合。到这里,我们大概可以窥见这是一种“搭积木”的挑战了,即每一块儿自己的AI模型要和其他领域的结合起来,互通有无。

再来一组名词解释。Langchain,主要想法是各领域最后都转化为一个文本语言问题,然后互通有无。RAG (retrieval augmented generation) ,主要用来引入额外的信息来补全LLM的知识储备。ReAct (Reasoning and Acting augments) 主要是理解指令并利用各种多模态的模块来执行具体任务。

——

对了,为啥么这里园主通篇不提prompt。因为,园主觉得这就是个成长过程中不成熟阶段的伪命题……过两年可能就完全嵌入大模型本身了。

——

园主这些知识大概一半是Coursera 这门Generative AI with LLM 课扫盲来的。这门课主打一个深入浅出,适合理清大模型的整体逻辑,极其适合入门。剩下一半就是读各类的新闻和paper,还有各种视频。只能说,互联网时代,知识本身触手可及,考验的是系统学习的鉴别能力。

——

这篇本来是想写个提纲然后扔给GPT帮我完成的,结果最后还是老老实实的手动敲完了。哎,下次试试能不能用GPT写的更好一些。

[新坑]通用人工智能

为了写下这个标题,我打字都要抖一抖。Artificial General Intelligence 这一年被炒的太火热了,我好像一个迟到的来蹭流量的似的。硅谷每几年都会有新的一波热点,追热点死得很惨的人一片片,我还是多少费了一番功夫,才觉得这不是又一个转瞬即逝的热点,而是一波新的技术革命的开端。

最近种种原因吧,花了不少时间精力来了解和思考这个领域,理论、技术和商业应用层面都有(我怎么这么牛,打脸冷静一下)。虽然前面法语的坑还没填上,但我还是想先挖个坑,要不要开个频道专门聊一下AGI和其他这一波AI技术的革新呢……哎,再挖个坑,这次可以用英文法语中文三种语言讲这个话题哎,想到这里觉得自己好厉害的样子(再打脸清醒一下)。

让我这个周末冷静冷静,再来看自己是不是又一时冲动了哈哈。

❌