普通视图

扫描二维码，分享本文到微信朋友圈

75a5a60b9cac61e5c8c71a96e17f2d9c 为什么AI下棋比走路简单? 莫拉维克悖论全解析(Moravec's Paradox) 人工智能 (AI) 资讯

The post 为什么AI下棋比走路简单? 莫拉维克悖论全解析(Moravec’s Paradox) first appeared on 小赖子的英国生活和资讯.

按揭贷款(房贷,车贷) 每月还贷计算器去年给银行借了17万英镑买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定是比较常用的. 简单来说就是每个月交的钱是...
智能手机 HTC One M9 使用测评虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
在英国给孩子换学校的经历: 孩子离开了村里的小学由于搬了家, 孩子上学得提前半小时出门了, 因为早上堵, 也得开车半小时才能到. 之前在 Fen Drayton 村庄上小学, 早上8:45学校门开, 9点敲钟孩子排队依次进入教室, 我们由于在村里, 只需要提前5分钟出门和孩子一起走路就可以了. 现在一下子早上变得很匆忙, 得叫孩子起床, 做早饭,...
同一台服务器上多个WORDPRESS站点的一些设置可以移出去我自从把所有网站都挪到一处VPS服务器上就发现很多事情省事很多可以同时管理多个网站包括 WORDPRESS博客. 比如我有四个WORDPRESS博客然后我就把通用的一些资料给移出去移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了相同的数据库资料. 1 2...
比特币最近波动有点大: 一天牛市一天熊比特币10万美金以内都是最后上车的机会！比特币近期的价格波动可以归因于多个关键因素，包括地缘政治动态、监管变化以及加密行业内的重大安全事件。其中一个主要影响因素是美国前总统唐纳德·特朗普对乌克兰和加密货币监管的立场变化。据报道，特朗普再次当选，他可能会推动减少美国对乌克兰的支持，这可能会影响全球金融市场和风险偏好。同时，特朗普正在将自己塑造为亲加密货币的候选人，表示有意让美国成为一个更加友好的加密货币环境。这一立场引发了市场对监管政策可能发生变化的猜测，导致市场情绪在乐观和不确定性之间波动。特朗普对俄乌战争的态度美国第43届总统唐纳德·特朗普已经在2025年1月当选并正式上任（第二次），那么他的政策可能会对比特币价格的波动产生更加直接和显著的影响。他政府对乌克兰和加密货币监管的立场已经不再是猜测，而是正在实际塑造市场的关键力量。特朗普（Donald Trump）减少美国对乌克兰的支持，全球投资者可能会预期地缘政治稳定性发生变化，从而增加对比特币作为避险资产的需求。同时，他的亲加密货币立场可能正在推动市场的乐观情绪。如果他的政府推出有利于加密行业的监管政策，例如明确的合规指南或减少监管审查，可能会吸引更多机构投资者进入市场，并促进更广泛的加密货币采用。然而，政策的快速变化也可能导致短期市场剧烈波动，因为市场需要时间来消化新的政策动向。朝鲜黑客盗取Bybit交易所15亿美元的ETH 另一个显著影响比特币价格的事件是近期涉及朝鲜黑客组织“Lazarus”的15亿美元以太坊被盗案件。据报道，Bybit交易所（全球第二）这些被盗的ETH已经被清洗，此次大规模黑客攻击引发了人们对加密行业安全性的担忧。此类安全事件不仅会削弱投资者信心，还可能引发更严格的监管审查，导致短期市场动荡。此外，被盗资金的大规模流动和出售可能对市场流动性造成冲击，进一步加大价格波动。随着这些事件的持续发酵，比特币价格正受到政治决策、监管预期以及安全挑战等多重因素的影响。与此同时，与朝鲜黑客组织 Lazarus 相关的 15 亿美元以太坊被盗事件仍在影响加密市场。由于这些被盗 ETH 已被清洗，人们对加密行业安全漏洞的担忧持续存在，同时也可能引发更严格的监管审查。政治、监管和安全等多重因素交织在一起，共同导致了比特币近期的剧烈价格波动。...
公司请的专业摄影师公司来了新的CEO管理之后,很多事情都不一样了, 特别是一些公司对外形象的事情就特别的在意, 比如公司网站用上SSL.现在公司还有空闲的位置,请速来(钱多人不傻). 一月份出差回LUTON,刚好公司请来摄影师给高层管理照像放网站上的,于是我也凑了凑热闹(但是却还不够资格被放在公司网站上),不过没关系,放这里也差不多. 人到中年, 沧桑感强了些. 更新更新: 同事用他NB的单反给谢菲尔得办公室的人也拍了一组这样的照片.看起来很不错, 很专业,灯光,道具应有尽有.我已经用在了LINKEDIN页面上,立马高大上. 本文一共 230 个汉字, 你数一下对不对. 公司请的专业摄影师. (AMP...
力扣 Leetcode 的刷题利器: 在线调试器和自动代码提示完成力扣代码调试器 Debugger 最近 leetcode 刷题网站出了一个在线调试器. 个人感觉非常好用. 因为我平时是用 IPAD+蓝牙键盘来刷题, 而在 ipad 上是没有集成的IDE的, 对于调试来说, 只能很原始的让函数退出一个值, 然后尝试不同的输入来发现问题. leetcode在线调试器的好处...
公司给配了台高配DELL笔记本早上例会结束的时候我顺便说了一句我的笔记本有点慢, 当时我并不知道我的经理远程用电话也参加会议了(他全程在听), senior staff SE 对着电话说, “peter, you hear that? btw, my disks are...

Received before yesterday

苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃” 2025/6/10

苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”

2025年6月10日 05:30

近日，苹果机器学习研究团队发布了一项引人关注的研究，指出当前所谓的大型推理模型（LRM，如 OpenAI、Anthropic、Google 等推出的模型）在面对难度不断提升的逻辑类问题时，会出现准确率骤降至 0、推理努力减少的现象，表明这些模型并没有真正具备稳定的“思考”能力。

研究背景与核心发现

实验设计：复杂性可控的逻辑谜题

研究团队采用了像河流过渡和汉诺塔（Tower of Hanoi）等经典谜题，通过可控手段系统增加问题复杂度，同时观察模型的“思考过程”和最终结果，避免传统数学或编程基准可能的数据泄露问题。

苹果机器学习团队最新发布研究，指出当前大型推理模型（LRM）在面对高复杂度逻辑题时，准确率骤降至零，且推理过程中的计算量急剧下降，表现出“放弃思考”的现象。
研究用经典谜题如河流过渡和汉诺塔，通过逐步增加难度控制变量，观察模型的表现和推理行为，规避了训练数据泄露的影响。
结果显示，低复杂度时普通大语言模型LLM表现更好，中等难度下推理模型依赖“链式思考”提升表现，但高复杂度下所有模型准确率急剧崩溃。

模型推理能力的“崩溃”与“偷懒”

在复杂度临界点，模型的有效 token 使用量明显下降，表明模型在完成部分步骤后“停止推理”。在问题复杂度接近崩溃阈值时，这些模型伴随着有效 tokens 使用量骤降（即前几步还在思考，後面却“偷懒”了），表现出类似“放弃继续解题”的行为。
即使研究者直接给出解题算法，模型仍无法有效利用，说明其并非真正理解算法逻辑。为了验证模型是否真无法理解算法，研究者在汉诺塔问题中提供了解题算法，但这些模型依然无法提升准确率，表明它们并不能用“听懂并执行算法”的思维方式，而是纯粹靠训练数据中的“模式匹配” 。

研究实验示意表

复杂度等级	模型类型	表现趋势	备注
低	普通大语言模型	准确率较好	推理模型表现一般
中	推理模型（含链式思考）	准确率提升	链式思考开始有效
高	所有模型	准确率急剧下降至0	模型推理“崩溃”并“放弃”

专家观点与行业影响

Gary Marcus：该研究“毁灭性”，打破了大语言模型快速通向通用人工智能的幻想。
Andrew Rogoyski：当前推理模型已遇瓶颈，现有方法或进入“死胡同”。

苹果的AI发展战略解读

此次研究发布正值 WWDC 2025 前夕，体现苹果强调“设备端效率”和“实际应用价值”，反对盲目追求模型规模和复杂度。
苹果去年推出的“Apple Intelligence”基于 ChatGPT 技术，但表现平平，此次研究进一步证明稳扎稳打才是长远之计。

未来方向与思考

建立无数据泄露风险的逻辑谜题评测基准，避免传统 benchmark 偏差。评估基准的重塑：苹果强调使用无训练数据泄露、谁都无法“抄答案”的可控逻辑谜题来测试 AI，以避免传统 benchmark 的偏差。
引入符号逻辑和神经符号混合技术，突破纯统计学习的限制。融合思维范式：当前 LLM 的“链式思考”是统计学习，并不是真正的推理。未来可能引入符号逻辑、神经符号混合等技术路径。
结合专用推理子系统，提升模型对复杂算法的理解与执行能力。专用推理系统搭配神经网络：苹果研究者曾指出，搭配专门的数学/推理子系统能弥补大语言模型的机制性思维不足。

总结

链式思考并不等于真正的思考。当前推理模型在复杂问题面前容易“崩溃”和“放弃”。
未来AI发展需要超越纯数据驱动的模式匹配，向可解释、可操作的逻辑机制进化。
苹果此次研究为业界敲响警钟，也明确了其在AI道路上的稳健路线。

参考文献

苹果发表的文章：The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
‘The illusion of thinking’: Apple research finds AI models collapse and give up with hard puzzles

新闻/实事/经济

人工智能 / Artificial Intelligence

本文一共 1899 个汉字, 你数一下对不对.

扫描二维码，分享本文到微信朋友圈

75a5a60b9cac61e5c8c71a96e17f2d9c 苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃” 人工智能 (AI) 新闻科技资讯

按揭贷款(房贷,车贷) 每月还贷计算器去年给银行借了17万英镑买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定是比较常用的. 简单来说就是每个月交的钱是...
智能手机 HTC One M9 使用测评虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
同一台服务器上多个WORDPRESS站点的一些设置可以移出去我自从把所有网站都挪到一处VPS服务器上就发现很多事情省事很多可以同时管理多个网站包括 WORDPRESS博客. 比如我有四个WORDPRESS博客然后我就把通用的一些资料给移出去移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了相同的数据库资料. 1 2...
比特币最近波动有点大: 一天牛市一天熊比特币10万美金以内都是最后上车的机会！比特币近期的价格波动可以归因于多个关键因素，包括地缘政治动态、监管变化以及加密行业内的重大安全事件。其中一个主要影响因素是美国前总统唐纳德·特朗普对乌克兰和加密货币监管的立场变化。据报道，特朗普再次当选，他可能会推动减少美国对乌克兰的支持，这可能会影响全球金融市场和风险偏好。同时，特朗普正在将自己塑造为亲加密货币的候选人，表示有意让美国成为一个更加友好的加密货币环境。这一立场引发了市场对监管政策可能发生变化的猜测，导致市场情绪在乐观和不确定性之间波动。特朗普对俄乌战争的态度美国第43届总统唐纳德·特朗普已经在2025年1月当选并正式上任（第二次），那么他的政策可能会对比特币价格的波动产生更加直接和显著的影响。他政府对乌克兰和加密货币监管的立场已经不再是猜测，而是正在实际塑造市场的关键力量。特朗普（Donald Trump）减少美国对乌克兰的支持，全球投资者可能会预期地缘政治稳定性发生变化，从而增加对比特币作为避险资产的需求。同时，他的亲加密货币立场可能正在推动市场的乐观情绪。如果他的政府推出有利于加密行业的监管政策，例如明确的合规指南或减少监管审查，可能会吸引更多机构投资者进入市场，并促进更广泛的加密货币采用。然而，政策的快速变化也可能导致短期市场剧烈波动，因为市场需要时间来消化新的政策动向。朝鲜黑客盗取Bybit交易所15亿美元的ETH 另一个显著影响比特币价格的事件是近期涉及朝鲜黑客组织“Lazarus”的15亿美元以太坊被盗案件。据报道，Bybit交易所（全球第二）这些被盗的ETH已经被清洗，此次大规模黑客攻击引发了人们对加密行业安全性的担忧。此类安全事件不仅会削弱投资者信心，还可能引发更严格的监管审查，导致短期市场动荡。此外，被盗资金的大规模流动和出售可能对市场流动性造成冲击，进一步加大价格波动。随着这些事件的持续发酵，比特币价格正受到政治决策、监管预期以及安全挑战等多重因素的影响。与此同时，与朝鲜黑客组织 Lazarus 相关的 15 亿美元以太坊被盗事件仍在影响加密市场。由于这些被盗 ETH 已被清洗，人们对加密行业安全漏洞的担忧持续存在，同时也可能引发更严格的监管审查。政治、监管和安全等多重因素交织在一起，共同导致了比特币近期的剧烈价格波动。...
老婆的配偶签证被拒郁闷死了, 601镑签证费打水漂,一去不回!费钱费力. 去年12月份我请了律师拿到了永居.老婆是T1G签证的陪工签 (DEPENDENT VISA) 2016年4月份到期. 然后我就想说得趁早把她的签证转成配偶签(SPOUSE)这样她就可以尽快走五年永居的路线. 今天收到拒签信,原因是我没有提供有工资进帐的那份银行帐单,我提供了我和我老婆的联名帐户, 但是工资并不是直接打到这个帐单上的.所以就这一点被拒了.完全不给解释,不给补材料的机会.601镑就这样再见了. 英国的签证寄出之后是先由另一个部门先收费, 收完费才正式审理,而且不管结果如何是不退钱的.后悔没让律师弄,也不至于到现在浪费这么多时间和金钱,签证还没过.由于原签证还没到期,所以还不能上述.估计只能等搬完家后年底请律师搞定这事. 真是郁闷, 600镑, 我可以再买一个IPHONE6,或者给我的新买的车换四个轮胎....
公司给配了台高配DELL笔记本早上例会结束的时候我顺便说了一句我的笔记本有点慢, 当时我并不知道我的经理远程用电话也参加会议了(他全程在听), senior staff SE 对着电话说, “peter, you hear that? btw, my disks are...
花钱让人换汽车钥匙的电池真是个智商税今天想不到我这么聪明的人也被人狠狠的收了一把智商税. 今天被收智商税了, 去 Tesco 换车钥匙的电池. . 才发现如此的简单, 那人直接2分钟搞定2个, 然后收了我25英镑. . 服了. . 我还以为很复杂…… 网友说 “1....
Microbit 编程: 简易人工智能让电脑玩游戏上一周, 我们在 Microbit 上编写了第一个游戏: 吃苹果. 我两儿子很喜欢玩, 他们互相比着最高分, 大概极限是35分. 吃苹果的游戏代码和Microbit模拟器: https://makecode.microbit.org/_DV93uT7i0WuK 可能有极限吗? 即使我们做出足够迅速的反应并且没有犯错, 会出现怎么样也无法抓住苹果的情况吗? 人工智能简介-让计算机玩游戏 AI被称为人工智能,...

豆包的双重水印 2025/6/3

豆包的双重水印

https://www.bilibili.com/video/BV1PG7KznEi4/

2025年6月3日 16:48

字节不仅没活，而且玩不起。

玩不起也就算了，还搞出笑话。

（自上篇文章写完之后，这最近十多天我都没怎么打开过豆包，所以这些事情的具体发生日期不确定）

（PS：文章写得太慢，现在豆包又把预览图水印移动到左上角去了）

豆包开始封杀无水印图片获取方法

之前最基本的方法就是，直接从网页端获取无水印的预览图。因为预览图与下载图的清晰度是相同的，而且下载图是带水印的，所以没必要再去点击下载。

之所以有这么个办法，即 为什么预览图不带水印但是下载图带水印

…… 谁特么能知道字节的员工是怎么想的 。

然后大约5月28日左右，网上开始有视频说豆包开始在预览图上加水印了。

这就导致包括我之前文章《从豆包下载无水印图片》在内的下载预览图方式获取无水印图片的方法失效了。

screenshot_on_b85m_by_flameshot_at_2025-06-02_16-53-15

豆包的二次水印

这玩意就搞笑。

首先预览图带水印，然后下载图也带水印。

然然后 …… 预览图水印与下载图水印还不一样。

screenshot_on_b85m_by_flameshot_at_2025-06-02_17-09-12

screenshot_on_b85m_by_flameshot_at_2025-06-02_17-09-47

一张图打两个版本的水印，CPU随便用，存储空间不要钱，带宽流量狠劲浪。

豆包视频的双重水印

豆包当然在服务器端是有保存无水印，看上一条你就能知道。

觉得一张图片额外存两份不同水印的副本就足够傻了？

来看 双重水印

不方便点开看视频的或者看不懂怎么回事的，我解释一下：

豆包支持将 生成的图片 直接用于 生成视频 。这种功能设定在正常逻辑上很正确，是为了 免去用户手动下载图片，然后再重新上传图片到网站，浪费资源 。

但是傻屌字节一开始就做歪了。点击 「生成视频」 的时候，是把 预览图 下载到本地，然后转码成BASE64。然后在 「生成视频-发送」 时，却又并不提交浏览器缓存的图片或BASE64，而是直接提交了一堆ID和Token，但是这些ID和Token引用的，是服务器端保存的 带水印的预览图 ，所以最后生成的视频文件，同时带有 预览图水印 和 视频水印 。

如果梳理一下他们这奇葩行为的流程的话：

二次下载预览图（会调用浏览器缓存，不浪费带宽，可以理解，但是干啥用？）
把预览图转码成BASE64（干啥用？）
提交ID和Token而不是图片（正确操作）
调用的是服务器端保存的带水印的预览图（有病啊）
在生成的视频上打水印（在屎上拉屎）

screenshot_7734397622634242-20250602174504

他这玩意，在16:9和4:3以及1:1横向视频上问题还不严重，毕竟两个水印叠加在一起了。但是在9:16纵向视频上，以及21:9宽屏视频上，水印不论位置还是大小都不一样，很显眼的俩水印。

比例 1:1

screenshot_vlcsnap-2025-06-02-22h11m55s457

比例 4:3

screenshot_vlcsnap-2025-06-02-17h48m49s313

比例 16:9

screenshot_vlcsnap-2025-06-02-22h06m34s620

比例 21:9

screenshot_vlcsnap-2025-06-03-00h55m04s645

比例 9:16

screenshot_vlcsnap-2025-06-03-00h54m30s411

这里也有一个视频可以看每个长宽比不同的视频，他们水印都打到了什么地方。

https://www.bilibili.com/video/BV1b27Qz9ENE/

一个做短视频起家的公司，甚至都不关心竖屏视频的输出结果。

PS1：豆包现在线上输出的视频分辨率小于720p，现在是一个很奇葩的数值，16:9 和 9:16 视频的分辨率是 1248×704 。

screenshot_on_b85m_by_flameshot_at_2025-06-03_00-15-25

（这破公司怎么想的）

PS2：假如你 在页面重新下载完预览图转码成BASE64添加到首帧图之前 ，输入完文字（一般是复制粘贴）直接敲回车键提交的话，那么将会以 无首帧图 的场景下，进入 文字生成视频 的流程。还挺滑稽的，以至于我一直以为第五步是要从页面上传一遍图片。

screenshot_on_b85m_by_flameshot_at_2025-06-03_01-01-24

豆包扩图的预览图是个超低分辨率的jpeg

如果使用扩图功能之后刷新页面，那么回到页面时，点开缩略图展开的预览图片，不是真正的预览图片，而是左侧的那个jpeg格式缩略图。

screenshot_on_b85m_by_flameshot_at_2025-06-02_18-26-32

改了一个功能，崩了一堆功能。

只能说IT行业大公司才是程序员平均水平的具象化，刻板印象真的表现得淋漓尽致。

以后如何获取无水印图片

除非豆包重新放开渠道，否则想要直接获取无水印图片是比较困难了。

当然，这个程度的阻碍根本难不倒勤劳智慧的中国人。网上已经有一些办法去掉豆包的这个新水印了。

有水印：

screenshot_7875414228876802-20250603160359-1506-watermark

无水印：

screenshot_7875414228876802-20250603160359-1506

对比：

screenshot_on_b85m_by_flameshot_at_2025-06-03_16-09-07

screenshot_on_b85m_by_flameshot_at_2025-06-03_16-06-56

其他例子：

screenshot_7733561051765506-20250602181125

screenshot_7728629145285122-20250602215251

screenshot_7732002315140098

只不过目前想不出来如何用 userscript 一键搞定这个有点复杂的操作。

其实根本无所谓，现在豆包的输出结果，只要是接触过豆包AI的，一眼就能看出来是豆包3.0的视觉模型，

screenshot_on_b85m_by_flameshot_at_2025-06-02_18-38-56

我可不会觉得字节是担心有人用免费的豆包套一层人皮在外边卖服务吧 …… 不过考虑到字节旗下的用户，还真说不准。来个闲鱼修图业务，套人皮用免费AI收费改图。

有人说防污染

也有人说这玩意是为了防止AI输出结果对AI训练的自行污染……呵呵，还能有人觉得AI现在不会自行污染了？

至少我是会在图片上额外再打一个水印的，但是我打的水印AI能不能识别到都不一定。

结尾

我之前做了一个无水印下载脚本，当时遇到了不少问题，比如跨域图片下载，下载图片的命名。

本身豆包页面就有不计其数的逻辑错误，我都懒得吐嘈了。

你要知道上个月的时候字节旗下的那个收费的即梦AI还做不到 下载视频 ，点开下载视频按钮直接打开视频，需要自己再另存为到本地。

现在豆包为了封杀直接下载无水印预览图的方式，搞烂了一堆其他的功能。你说字节是杀敌一千自损八百吧，其实字节根本就没有高端用户，顶多算是杀了自己一千八而已。

即梦那边貌似也在收紧免费业务。

爱咋地咋地吧，最多就是少了一个玩具而已。

（PS：文章写得太慢，现在豆包又把预览图水印移动到左上角去了）

The post 豆包的双重水印 first appeared on 石樱灯笼博客.

豆包这「超能创意 1.0」是把隔夜饭打包重新上架 2025/5/22

豆包这「超能创意 1.0」是把隔夜饭打包重新上架

https://www.doubao.com/thread/w0bde7781a980aa4d

2025年5月22日 23:42

看来字节没活了。

（注1：文章具有时效性）
（注2：文章包含大量图片。为照顾布局，部分图片有经过剪切，与线上排版有差异）

前提

建议先读我之前写的这篇文章：《豆包“偷偷”“更新”文生图功能》

然后在讲 豆包这「超能创意 1.0」

简单来讲，我4月末写的那篇文章，差不多是豆包这超能创意的更新，但是他们的文档5月14日才出来。

而且现在状态还是灰度测试？那我之前三个星期用的是啥玩意？

反正现在能确认的只有匿名模式是没这玩意的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-49

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-34

有了文档，那就能明确他这玩意到底都更新了个啥，不用我一个一个猜了。

然而……

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-56-57

这破文档的前景水印是怎么回事？TMD这是想要抓截图的人吗？我当然知道字节是有能力跨省甚至雇人跟踪的。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-53-56

https://finance.sina.cn/stock/ssgs/2022-06-08/detail-imizirau7216080.d.html

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-55-42

（我甚至担心，别豆包看见的白底实际上也有不可见的水印。我可没心情翻他们前端代码）

另外，啥叫 超能创意 1.0 版本不稳定，建议保持在「图像生成」技能下使用。 你这整个文档都是「图像生成」，怎么在图像生成之外使用？难道还有其他的灰测？

隔夜饭还是馊的

首先我得勘误一个事情，这个「超能创意 1.0」实际上在4月25日出过更新内容，只不过我上一篇文章却是从4月22日开始写，一直写了5天（你就说有多慢吧），期间也没有仔细检查过他们的更新通知，而且我清晰得记得没有弹框和红点。事实上知道5月20日我才看到5月13日的更新内容。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-20-34

ShowCase 1. 懂你：理解意图

智能理解

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-01-09

这玩意就是之前我提到过的 画蛇添足 问题的元凶。

screenshot_on_b85m_by_flameshot_at_2025-04-23_00-27-11

又是发光墙壁又是雪花的，连传送门都有。

而且，它到底理解了个啥？

https://www.doubao.com/thread/wb6624c2f1e92b5c4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-12-29

（车头对着少女，这明显是公交车进站啊）

只能说这玩意用法过于诡异。

https://www.doubao.com/thread/wcc11bf206e3385f4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-21

这玩意定位不会是智力只有小学生程度的用户吧？公主被抓走什么的，我直接用更精确的难过上心流泪这些形容词不就好了？

https://www.doubao.com/thread/w40857ee750940325

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-57

（你发散思维时，至少把人物主体的手画对好吧？）

只能说这玩意只有在输入的内容过少的时候，自由发挥时有用。但是自由发挥的范围却是不可控的，谁知道什么时候画蛇添足把整体搞崩了。

再说本来你这玩意的理解能力就很烂，遇上个脑子跑偏的用户根本做不出来对应描述的内容。

https://www.doubao.com/thread/w52d13518a1dca2b7

screenshot_on_b85m_by_flameshot_at_2025-05-19_15-23-47

创意发散

怎么看怎么像是给小孩玩的线稿上色。

screenshot_on_b85m_by_flameshot_at_2025-05-18_16-43-21

那你倒是好好给我上色啊。

https://www.doubao.com/thread/w21b3a28319ff897a

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-26-37

得，把你整体构图都改了。

图片处理

你玩我是吧？

这TM不还是 参考图/智能编辑 ？

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-56-29

字节你自己都看不出自己文档里的结果有多么的伪人？

而且这破玩意超级荒唐。我之前文章中《讲讲目前使用线上AI文字生成图片工具的局限性》也说过，这个功能的最大边长是1312，而且模型会降级。

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-53-46

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-11

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-21

screenshot_on_b85m_by_flameshot_at_2025-05-14_21-24-53

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-13-12

这玩意与参考图/智能编辑唯一的区别在于，入口不是按钮，而是在对话里直接对话执行……有那个必要吗？

这玩意唯一的优点就是，可以一次性批量处理上一次生成的所有图片结果。

https://www.doubao.com/thread/w06260c9d6090427c

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-14-05

把3.0的2048结果输出成2.0模型的1312的结果。

共创：灵感迭代

创意迭代

这不就是刚讲完的 参考图/智能编辑 ，又来？！？！

灵感共创

这不还是 参考图/智能编辑 …… 这是打算解决连续性问题？

我之前也说过，用这玩意讲故事的话，有严重的连续性的问题，改了？

https://www.doubao.com/thread/w994aed0d09b61398

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-25

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-42

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-51

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-58

改了个P。还是那个旧版的 参考图/智能编辑 ，四格就崩得金瞳变蓝瞳，长直变马尾，还把腰给搞没了。

更别说我本身不想使用这个功能的时候，也硬往这个功能里走。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-46-17

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-51-51

你这啥语境啊就开始拆？！

……

不对劲！

莫非文档是错的？这功能本来就不是文档例子里那么用？

保持主体不变：

https://www.doubao.com/thread/w26d04c42f808dd27

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-05-30

主体变化：

https://www.doubao.com/thread/w12bb0ff627a19973

screenshot_on_b85m_by_flameshot_at_2025-05-22_14-46-02

实测效果不尽人意。不论是 保持主体不变 还是 主体变化 ，这俩方向都很不稳定。连续性问题没法靠这个办法解决。

甚至这玩意还有两套不同的输出。

https://www.doubao.com/thread/w2ceba308d4e0340b

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-21-09

https://www.doubao.com/thread/w45775221ae6d81cd

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-20-18

配合上莫名的和谐和不识数问题，真的着实不靠谱。

超效率：批量生成 + 自适应：比例适配

这俩玩意我就合到一起讲了。

之前蒙出来过，就是你手动输入生成超过20条的时候，他会按照两个阶段输出。比如输出32张，那就先输出20张，再输出12张。比例也是一样的。

输出4张是为了调整关键字，输出20张是为了批量结果然后在其中挑选，输出超过20张那基本脑子有病。

万千：风格变换

还是 参考图/智能编辑

screenshot_on_b85m_by_flameshot_at_2025-05-20_14-46-59

嘴上说是变画风，实际上背景构图姿势全都变了。

人家不在乎你吃馊的隔夜饭

豆包这超能创意文档就算讲完了。

然后是这个：

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-00-26

这个是文档中的一张配图，没有放在首页里，但是在链接里 https://www.doubao.com/thread/w1abc0acf83af4ce3。字节的飞书也屏蔽了 web archive 的抓取，所以也没有历史可查。我只能说人家写文档的时候就没在意这些功能可用性有多高。

你仍然可以点开文档中的链接，看到带着各种报错信息的例子 ，比如 https://www.doubao.com/thread/wa0538d95b92a9a17

事实上他这文档最后的 BadCase 里竟然还写了会崩溃。崩溃也就算了，把日志打到用户侧也实在是太……傲慢。

开始讲文档里没有的东西

严重不识别最高级别的关键字

自己不能手选模型版本，不能选模型分类，现在连模型关键字都忽略了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-56-43

旧版往动漫降级，新版则是模型乱跑。

不识数的问题更严重了

之前文章说过，有时候就莫名奇妙只输出1张图片。当时认为是错把文中的数字当输入数量，手动设置输出数量或许就行。

screenshot_on_b85m_by_flameshot_at_2025-05-17_16-02-03

这回是都看到输入数量了，还是只出一张图。

这人工智能怎么还阿尔茨海默症了。

内容错误

说实话我是没明白豆包这产品的输出定位是什么。至少很多东西在他的模型里是没有概念的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-10-40

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-12-48

反正目前的水准只能当作玩具。

更烂的理解能力 VS 更精确的提示词

这破玩意说白了就像打车，你上了车说要去美食城，司机却说美食城有啥好玩的我带你去更好的地方，说罢就把你拉近黑煤窑附近的苍蝇馆子。尤其是你去美食城并不是去吃饭而只是去美食城附近其他地方的时候。

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-05-05

本身你达不到用户的精确需求的时候，却说不要被过程绑架。爹味十足。

假设在中考卷子上写「不要被推倒过程和正确答案绑架」……这TMD的确听起来像是个中专生能干得出来的事情……蠢爹有个蠢儿子。

screenshot_on_b85m_by_flameshot_at_2025-05-15_15-54-25

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-16-25

screenshot_on_b85m_by_flameshot_at_2025-05-17_13-20-10

这玩意最诡异的还是当你关注两个关键要素的时候，比如「过膝靴」和「过肘手套」，「过膝袜」和「手臂抵住膝盖」，精确度总是歪的。有「过肘手套」那「过膝靴」就只有腿没有脚，有「过膝袜」那就没有「手臂抵住膝盖」。

敏感词提示没了

之前文章中讲过，4月份更新的时候，多了个敏感词/违禁词提示。这功能不说好坏，至少能让用户知道某些词不能用。现在，没了。

现在的情况，要不就是直接弹个黄框然后没反映，要不就是输出4个你看不到的图片，要不就是在有上文的情况下直接忽视敏感词/违禁词。还挺随机的。

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-32-54

「喷.+水」

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-43-20

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-52-07

看来字节也知道把「领导」这种词当成敏感词/违禁词被截图也会很尴尬吧。

更诡异的敏感词/违禁词

（写完问发现这是视频生成的违禁词。因为本篇重点在文生图和图生图上所以我不打算重点讲这一块，我目前只能说的确有更诡异的敏感词/违禁词，而且视频生成还有额外的一套敏感词/违禁词，而且还有图像识别用来检查输入图像是否合规，尤其是豆包自己AI生成的图片也有可能无法通过审查，而使用与豆包相同模型的即梦AI的审查更严格）

screenshot_on_b85m_by_flameshot_at_2025-05-18_15-09-40

你要说「领导」是敏感词/违禁词我能理解。

「射出水」明显比「喷水」更令 封建势力感到有伤风化 吧？还是说因为内容主体是女性，只能「喷」而不能「射」？

中国人的AI的想像也能在这一层能够如此跃进吗？

NTM 要是能在内容上精确，而不是在敏感词/违禁词上也瞎「创意」就好了。

是时候破案了

之前文章中有写到过，豆包的豆包大模型背靠的是字节的火山引擎。而火山引擎的后台做得稀烂。

我甚至发现 console.volcengine.com 的域名解析都是混乱的，这不会是被运营商污染了吧。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-39-37

（想想看假如真的是国内网站被 DNS污染 ，还挺搞笑的）

在 hosts 里添加了个静态地址，稳定了不少。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-42-36

不得不说字节这CDN用得的确有点丧心病狂。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-49-07

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-48-16

为什么「参考图/智能编辑」的输出结果这么烂

火山引擎这官网非常难打开，而且文档也写得稀烂，所以我之前没怎么看过。其实现在我也不想看。

简单来讲，豆包线上用的文生图模型是：doubao-seedream-3.0-t2i，而「参考图/智能编辑」功能其实在学名上是叫做 「图生图」 ，而这个功能只有 2.0 和更旧的版本支持。不仅如此，官方文档介绍里还把 2.0 的「图生图」给漏掉了。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-56-17

事实上你看这两个文档在文档结构里离得有多远就清楚这帮助系统做得是有多稀烂了，模型列表里甚至都没有 2.0 的图文模型。

这就很好理解了。所谓的「参考图/智能编辑」功能其实是把图片走了另一套逻辑，进的另一个旧模型，输出参数也更低更差。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-48-28

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-45-01

screenshot_on_b85m_by_flameshot_at_2025-05-20_12-37-56

就这个错误程度，已经跟准确度精度都不搭边了。

2.0模型的输出结果又是如何？

（因为这文章是写完主题后查漏补缺补的，所以顺序有点乱）

这里要用到与豆包使用同样模型的收费工具：即梦AI。

（关于即梦的介绍见文章后部分）

动画模型

我用相同的提示词，不同的模型生成图片。

3.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-45

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-19

2.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-21

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-55

可以看出，2.0的图片虽然看起来很花俏，但很明显的3.0图片精度更高。实际使用场景当然是正确度优先于花俏度的（除非当作无目标的玩具瞎玩）

（但是2.0的妹子，胸大，穿得短，露得多……？？？？？？）

screenshot_webp_jimeng-2025-05-21-815-

screenshot_webp_a182c8c2ba7b4dcf9251d7bf838104b2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_66549995fe64497891506f200ec4e316~tplv-tb4s082cfz-aigc_resize_2400_2400

有时候你也不能说哪个好看，毕竟这玩意风格都不一样，简直就是换了个人画画，作画方向不一样，风格也不一样，说不了谁好谁坏。

但是论精度，肯定是3.0的更靠谱，因为这些图片都是在2.0先出图后，在3.0那边细调出来的。3.0的关键词在2.0下跑偏得离谱。假如3.0的精度是 3/4 的话（出4张图能有3张图匹配一定的文字描述），那2.0的精度差不多是 1/16 （出16张图能有3张图匹配一定的文字描述）。我只能说「一定程度上」的，因为大部分时候你怎么折腾，3.0都匹配不上，更别说2.0了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-22-21

动漫站姿，结果一个坐地上，一个是人像。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-12-44

腿画错，手套画错，没画鞋，衣服画错，手画错……

至少3.0的正确率更高。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-16-08

另外关于露的现象。

screenshot_webp_56b8713e42d247c4a855868d618aa3a2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_6c699579a0aa4c3899d60799f9444f57~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-13-21

不是……你这么喜欢露，你把我参考图/智能编辑的腰搞没了干什么？

人像模型

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-22-22

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-21-53

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-19

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-28

3.0的出图，假如有人说这是张真人高P图，大概率没法分清真伪。

图生图

然后在使用特定的3.0图片使用2.0模型进行图生图

screenshot_6525640716060930-20250521170520

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-43

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-18

很明显2.0的花俏不仅没了，3.0原图的细节也被抹掉不少。

人像这块就不用对比了，2.0的伪人非常明显。

假如使用2.0的输出结果进行图生图

screenshot_jimeng-2025-05-21-811-

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-34

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-53

能明显感觉到差距小变化就小。

他们如何盈利

我之前文章中说：豆包模型背后的火山方舟文生图的付费接口仍然是旧版的2.0模型，付费服务比免费服务还烂，是超出我的想象的。 事实上人家当然不用在意。

现在火山方舟已经有3.0模型，不过已经无所谓了。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-33-37

豆包也不需要盈利，因为豆包背靠的火山引擎背靠的字节下面的剪映下面还有另一个产品化的AI工具：即梦AI。

screenshot_on_b85m_by_flameshot_at_2025-05-19_17-33-58

screenshot_on_b85m_by_flameshot_at_2025-05-15_00-00-58

（能看到使用与豆包相同模型的即梦AI，高版本模型同样没有「参考图/智能编辑」功能）

事实上如今市场上有相当多的AI生成工具，而且大部分都是收费的，仅给定一点免费额度。而且免费文生图这一块质量最好的是豆包。

豆包目前的水准也仅仅是当玩具，而付费服务价格非常高，作为短期玩具花大钱不值得，作为长期工具，这个价格还不如自己花钱买显卡。可想而知 收费产品 真的只赚傻子的钱。

真实的Prompt究竟是怎样的？

之前文中没写过（但是评论里有提到过），现在的AI出图工具一般是有 「积极提示词」 和 「消极提示词」 两种提示词入口的，但是国内这些文生图工具基本上都没有 negative prompt 这个输入接口。

但是不提供不等于没有：

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-00-30

（所以我说你把错误日志打印到用户侧实在太过于傲慢了）

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-37-45

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-38-05

negative prompt 是内置的关键词，不会被用户输入影响。

不仅如此，prompt 还并不是你的文本输入，而是被 AI 跑过的内容。这也就意味着你的输入很可能被AI误解而变成乱七八糟的东西，而这玩意在报错崩溃之前，你是看不到的，更没办法调整。

更搞笑的是，同类产品甚至还提供把你的关键词输入通过 DeepSeek 转换为人类语言的功能。

screenshot_on_b85m_by_flameshot_at_2025-05-19_18-36-51

（把人类当工具，把工具当爹）

只不过 DeepSeek 这玩意吧，你只给一张图片然后让他发散的话，大概率走到资源耗尽啥总结都归纳不出来。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-07-18

本身 AI 就只有收敛这一个能力，你还让人家发散。

那就顺便把视频生成也讲一点吧

参见这个视频：【AI 参考图/智能编辑 + 图片生成视频效果展示。】

我把部分AI生成的原图片和使用参考图/智能编辑的图片，使用支持首尾帧的AI视频功能穿起来，然后重新排版编码成这个视频。你可以清楚的看到目前豆包3.0模型输出结果和其支持图生图的2.0模型之间的差距。

视频这一块也是同理。支持 AI首尾帧 的模型要比目前的模型落后非常远，所以输出质量惨不忍睹。

screenshot_on_b85m_by_flameshot_at_2025-05-21_19-45-03

事实上即使是最新的视频模型3.0，其输出质量也远比图形模型3.0差很远。

结论

我也说不准到底是没活可整了还是旧活新整……还是说本来旧活就没整起来，重新包装一下重新整。

所谓的新功能大部分都是「参考图/智能编辑」，而且由于文生图和图生图模型之间差异巨大，越整越烂。

不过说到底，豆包也是目前唯一一个免费提供所谓 3.0 版本文生图功能的软件，其他 付费软件 都只有豆包2.0甚至1.5的水准。

豆包也提供每日10次的图片转5秒视频功能，输出质量虽然一言难尽（模型应该也是1.5-2.0之间的水平，跟3.0差远了），好歹聊胜于无。

相对来讲，豆包反而良心多了。

其他 付费软件 的输出质量更差，我真的理解不了会有什么人高价买会员。

当然，每年都720充魔兽世界年卡然后完全不玩不上线的人，我现实中就认识一大把。

尤其是官僚主义死灰复燃形式主义死不悔改的今天。

2022年：https://www.bilibili.com/video/BV1Fv4y1B7An?t=495

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-37-11

2025年：

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-31-19

更别说现在还有这么多拿AI写博客发评论的人……

花个几百几千充个所谓「AI生产力工具」岂不更是名正言顺？

The post 豆包这「超能创意 1.0」是把隔夜饭打包重新上架 first appeared on 石樱灯笼博客.

豆包“偷偷”“更新”文生图功能 2025/4/27

豆包“偷偷”“更新”文生图功能

2025年4月27日 01:06

大概是4月21日的晚上，豆包偷偷更新了。不能说是升级，因为出图效果明显劣化了。

倒是没有劣化成之前2.0那个版本。模型的确是更新了，但是精度大幅度下降了，乱七八糟的东西变多了。当然了，豆包的产品动态里屁内容都没有。

本文讲一下已知的变更。

（文章内容随时间推移而失效）

变更

屁话

首先是出图时增加了一堆屁话。

screenshot_on_b85m_by_flameshot_at_2025-04-24_00-39-46

看着像是把你的文本重新理解后重输出，这样好利于你接下来更改你的错误输入。

实际上放了个屁。

这段重排的文字和文生图的最终关系，从结果来看根本没关联。文字上好像是理解了你的文字输入，但实际上最终图片结果大部分场景下跟这段重排文字没啥关系，该错还是错的，这反而更加显蠢。

不知为何把 Debug Log 打到输出了

screenshot_on_b85m_by_flameshot_at_2025-04-21_23-54-12

周一大半夜更新线上业务本来就很恶心，然后这Bug一直活到现在。

看来其实他们根本不在乎这个业务的死活，就是做着玩的。

敏感词提示

这个算是一个有用的更新。

screenshot_on_b85m_by_flameshot_at_2025-04-22_17-06-20

比上来就生成失败然后把输入都给删了强多了。

等有机会把「领导」这个黑名单词汇出个图。

出图精度大幅下降

这是水下吗？这是游泳吗？这游泳馆为啥有海豚？

screenshot_on_b85m_by_flameshot_at_2025-04-23_23-12-58

画蛇添足问题明显

这狗熊脸哪里来的？

screenshot_on_b85m_by_flameshot_at_2025-04-24_00-14-20

这还不是最麻烦的，最麻烦的是，整体场景多余内容变得特别多。这导致整体输出变得非常的不可控，如果想要做内容的话，很有可能因为不必要输出乱跑导致完全跑题。

比如，这是更改前的输出：

screenshot_on_b85m_by_flameshot_at_2025-04-27_16-12-04

这是更改后的输出：

screenshot_on_b85m_by_flameshot_at_2025-04-27_16-11-53

很明显更改前，输出的内容很干净很稳定，但更改后，就非常过分的自作多情了。

准确度也变得更差了，带着雨帽还能露出双马尾这种错误，在更新之前是没有的。

这玩意就是明显的「画蛇添足」

单个会话出图数量有上限

限流。

每次对话能输出的图片数量被限制到了20。

screenshot_on_b85m_by_flameshot_at_2025-04-23_22-27-29

玩不起了呗。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-15-39

但并不是精确的20个，触发条件不详。

某些场景下会只生成一张图，而不是之前的四张

screenshot_on_b85m_by_flameshot_at_2025-04-24_20-13-33

虽说是因为带输入中指定了「一个」。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-17-37

但是输入里如果带数字的话，有可能会被识别成一个。

screenshot_on_b85m_by_flameshot_at_2025-04-26_13-21-01

触发条件的细节不确定。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-44-17

好歹还是做了个最多一次20个的限制。

结论

线上工具用着就是这么难受。

这反而让我想起了10年前的某个工作内容，项目是在微信上做公众号，比起竞争对手的核心优势就在于不需要在手机上另装APP就可以做推送（说实话当年很难绕过安卓手机上的各种流氓应用互相杀进程，所以自己做APP死路一条），结果做了几年之后，微信大幅度砍了公众号的推送功能，导致整个项目都报废了。或许这辈子能有个机会写一个生涯回忆录写一些相关内容，但估计没有那个机会了。

The post 豆包“偷偷”“更新”文生图功能 first appeared on 石樱灯笼博客.

[vlog][漫画][魔圆] 《约会》 2025/4/24

[vlog][漫画][魔圆] 《约会》

2025年4月24日 16:10

怎么说呢……

偶尔做一把甜的。

视频

该内容仅供娱乐，请勿过分解读。
这是一篇使用AI工具辅助创作的作品。

B站链接：https://www.bilibili.com/video/BV1ZBLFznEht/

嵌入：

嵌入模式的清晰度应该是假的，横屏的时候反正窗口很烂，看不出来，竖屏就诡异了。反正怎么点都会跳转。

結尾

偶尔做一把甜的。

偶尔也写一把短的。

The post [vlog][漫画][魔圆] 《约会》 first appeared on 石樱灯笼博客.

讲讲目前使用线上AI文字生成图片工具的局限性 2025/4/15

讲讲目前使用线上AI文字生成图片工具的局限性

《尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果》

2025年4月15日 22:55

我这是捅到人家的天花板了。

本文多图多视频。我研究了一下，bilibili的嵌入代码，在后面接autoplay=0这个参数时也能像youtube嵌入代码一样禁止自动播放……（破站怎么自己就懒得写上参数呢。我估计写前端播放界面的人都不在了吧）

（为了省事，下文中关于 文字生成图片 、 图片生成 、 AI生成图片 等一系列同义词，均使用 文生图 这个词）

前言

是的这一阵子仍然很无聊的在折腾AI，主要是在瞎搞豆包的文字生成图片功能。

画画一直是我可望而不可及的能力，天生没有拿笔画画的能力，我最高也只能做到画几个简单的几何体素描，这还是小学一年级寒假的时候送到画画班学了一个月才会的东西。

再往上就感觉脑子里有个瘤一样。人类做不到自己想象不到的事情，而我很明确的想象不出来自己拿着笔画画的样子，最多也只是在3DS上玩一下《Colors! 3D》或者《绘心教室》。

jpg-IMG_20150119_123255

jpg-HNI_0088

所以当有一个能出图的工具摆在眼前的时候，肯定是得当作工具好好尝试一下的。

在上一篇文章中也说过了，线下AI文生图工具用不起，线上AI文生图工具不可靠。

只不过这次玩得有点多，我算是把 豆包的AI文生图天花板给捅 了

尝试用豆包文生图功能做漫画

现在我用AI文生图功能基本上只是想做叙事漫画，而之前文章《[原创漫画] 《生命，科技，灵魂，死亡》，以及制作感想》中也讲了，因为这玩意不是人，所以连续出图的连贯性完全没有保证。

第一个思路就是尽量让内容足够简单，这样在内容变化上能尽量保证主体变化不大，不会崩溃。

于是做了这么个玩意。

《[原创漫画] 工作》

只不过叙事结构实在是太过简单了。甚至都抽象不起来。

尝试用豆包智能编辑和区域重绘功能出图后插帧做动画

我之前想到过，使用智能编辑和区域重绘，一点一点做一个渐变的效果，然后在用 rife 插帧补成动画。

为此还专门撞到了 rife 的插帧数量 bug 上了。只不过 rife 的原项目早就沉寂了。社区目前或是没人维护，或是一堆不会说人话的莫名其妙脚本小鬼。

这是两个在动画风格下的尝试结果：

《继续尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果》

只能说效果非常的不好。rife只能根据两帧之间的差别出图，而动画是一个流畅的东西，在智能编辑和区域重绘这两个功能下根本没有流畅度可言。

我也尝试了用 NLE 的播放速度曲线，结果没啥效果。尤其是速度曲线需要做积分来确定播放时长，而我现在的脑子算个一元一次方程式都卡壳。

捅到豆包文生图2.0模型的天花板

（我猜这玩意叫2.0，因为我不知道这玩意到底叫啥）

我在思考过后，想了个不如干脆不用动漫风格，而是用写实风格，找个特定的明星脸去保证任务的连贯性。

然后就发现了个很有趣的现象： 当关键词足够多的时候，出图风格会回落 ，像是内存被站满了然后把整体模型下降一个级别以减少内存使用的现象。

具体回落顺序是：「人像摄影」＞「电影写真」＞「3D渲染」＞「动漫」

screenshot_on_b85m_by_flameshot_at_2025-03-31_19-36-09

可以看出在一定关键字下，人脸输出还是比较稳定的，图像也比较像真人。

但是当继续增加关键词的时候，出图风格就会往下落。「人像摄影」和「电影写真」都是出真人照片，「3D渲染」就开始出类似建模一样的风格，甚至直接降级到「动漫」这个风格里。

screenshot_on_b85m_by_flameshot_at_2025-03-31_19-36-15

继续增加关键词的话，即使手动设定「3D渲染」也会落到「动漫」风格。

screenshot_on_b85m_by_flameshot_at_2025-03-31_21-35-27

这算是捅到豆包的文生图功能的天花板了。

于是只能继续简化关键词，这也就意味着要简化场景的复杂度。

在这个限制条件下，我做了这个视频

《[原创] Dump》

怎么说呢，场景实在是太过于简洁了。

只能说，在线上工具有如此限制的情况下，创作上限真的是极其有限。

这也是为什么我一直讨厌依赖线上工具的原因之一。

豆包文生图模型升级到3.0

这玩意还能升级我是没想到的，因为我一直不太明确，目前这些大厂搞这些产品的目的是什么。豆包的这个产品，明显在外部宣传上没跑过同类选手，在商业宣传上亏一大截。事实上我个人认为线上这些工具全部都在迷茫期，或许瞎搞才是正常状态。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-24-27

模型升级后，的确画质提升了非常多，前文中讲的 风格回落 问题基本就不会出现了（或许是服务器升级了内存上限？）。但就像我说的 我一直讨厌依赖线上工具 ，线上工具的变化在用户端是不可控的。

模型升级后网站把不少样例都更新了。说实话旧版模型我觉得有些样例图根本就生成不出来，所以新版出来的时候很多样例肉眼可见的是画质变差了。但由于新模型的确有提升，所以整体上还算是升级。尤其是那个文案超级长的只放在「精选」分类里的例子，看着的确搏人眼球。

screenshot_on_b85m_by_flameshot_at_2025-04-13_16-36-01

screenshot_on_b85m_by_flameshot_at_2025-04-04_19-11-32

模型升级后的优点

（注：内容具有时效性，随时间变化部分内容会失效）

首先是文字内容的命中率高了非常多。

同等文案旧模型与新模型的对比：

生成特定风格图片_realesrgan2x

生成特定风格图片-2555473994924546-20250413162847

旧模型不会画单元楼门，不会画角色与背景的比例，不会画角色与背景的相对角度。新模型虽然在比例上还是歪的，但是至少把意思表达出来了。

输出的最大变长也从 1024 升级到了 2048，绝大多数情况下不用再手动用 realesrgan 放大一遍了后再缩小到 1920×1080 了。

模型升级后的带来的新缺点

原本作为「属性入口」的关键词，现在被当作真实的文字关键词使用。

比如原本用来控制角色身高的关键词，现在成了猎奇玩意。

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-45-58

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-49-34

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-52-43

总之目前模型下已经没法控制输出角色的身高了。

screenshot_on_b85m_by_flameshot_at_2025-04-11_22-06-26

然后是输出的角色现在都不能闭嘴不露齿笑，全部都只能张嘴傻笑了。

screenshot_on_b85m_by_flameshot_at_2025-04-07_00-10-03

悲伤必然流眼泪，伤心难过不哭不行。

screenshot_on_b85m_by_flameshot_at_2025-04-14_00-55-16

screenshot_on_b85m_by_flameshot_at_2025-04-14_00-57-24

然后不知道为什么，发箍这个字段总被当作光环

screenshot_on_b85m_by_flameshot_at_2025-04-13_19-41-01

screenshot_on_b85m_by_flameshot_at_2025-04-13_19-51-43

（莫不是模型是用 蔚蓝档案 跑出来的？）

模型升级前后依旧存在的缺点

和前一篇文章提到的问题一样，只要元素个体超过两个，相互关系就会崩。

车是依旧不会开的。

screenshot_on_b85m_by_flameshot_at_2025-04-07_20-32-35

马是不会骑的。

screenshot_on_b85m_by_flameshot_at_2025-04-12_15-31-16

部分关键词的理解还是错的。

screenshot_on_b85m_by_flameshot_at_2025-04-07_13-57-29

疑问表情的时候问号是画出来的。

生成动漫风格厨房图片-2994986069843458-20250414012836

关键字屏蔽还是在的

screenshot_on_b85m_by_flameshot_at_2025-04-06_16-07-05

多个对象场景下比例还是很容易崩的。

生成动漫风格图片-2988978288407810-20250413231900

多个对象场景下，对象间关系很容易出错。

比如，我想让这个紫色少女站在橙色少女前面，站着的时候就没问题。

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-38-23

但只要橙色少女坐下，就没戏。

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-38-29

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-39-30

更别说总能渲染出离奇玩意出来。

生成动漫风格图片-2860612677803010-20250411191734

地上那个大屁股是谁掉的？

参考图、智能编辑、区域重绘、擦除

讲了出图，也得讲一下改图。

擦除

擦除应该是最有用的功能，只不过豆包的这个擦除，抹啥糊啥。

原图：

生成动漫风格图片-2996429080838914-20250413233527

豆包擦除：

生成动漫风格图片-2996429080838914-20250413233211

百度擦除：

jpg-e1d68564eccf784c743295bb2fbbd76c

（百度出的结果是jpg的而且分辨率会被缩，基本上是一坨屎）

GIMP 克隆工具：

生成动漫风格图片-2996429080838914-20250413233209

而且很诡异的是，豆包的擦除会破坏原图非目标区域。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-41-49

百度就不用讨论了，输出的是JPG肯定毁得一塌糊涂。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-42-06

所以有擦除需要的时候能用传统工具还是用传统工具最好。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-43-23

参考图、智能编辑、区域重绘

参考图、智能编辑、区域重绘，这三个我就一起说了。

原本2.0模型的时候，这仨功能就不怎么好使。最大的感觉就像是，这三个玩意用的是一个比2.0劣质一点的模型，但还没有到达不可接受的差距。

尤其是2.0的时候，文生图的输出最大边长是1024，而 智能编辑 的最大边长却是 1312，对应16:9比例的话输出结果是 1312×736 这么个分辨率，直接放大到 1920×1080 的话是 1920×1077 或 1925×1080 。也太奇葩了。

用了智能编辑后不仅分辨率坏掉了，图像的精细度也会降一大截。

生成特定风格图片-1961225555338754-20250316194924

生成特定风格图片-1961225555338754-20250316195003

如果运气好的话，新图的角色可能会比旧图角色小一点，那样的花就用rembg把旧图角色抠出来，然后自己编辑，再贴到新图上。

动画模型还好一点，真实场景模型几乎烂到恐怖。尤其是现在模型是3.0的情况下，精细度差别能大到吓人。

这是3.0的文生图：

生成特定风格图片-2715236277751298-20250407223427

这是区域重绘，尝试在椅子上放一瓶可乐：

生成特定风格图片-2715236277751298-20250413154949

这是参考图/智能编辑想在空椅子上加个人：

生成特定风格图片-2715236277751298-20250413155332

纯正 伪人-模拟恐怖

事实上即使是抛开画质不谈，智能编辑本身就会严重丢失原图的信息量。

换杯饮料立刻不哭：

生成动漫风格图片-3001337865737730-20250414010459-1

换个地毯立刻开心：

生成动漫风格图片-2991379788847618-20250414010930-1

白天黑夜表情就变了：

图片风格设定-3043733434981378-20250414231405-1

甚至连东西都不会拿了。

图片风格与内容描述-3006221925573122-20250414013744-1

我文章开头说过想用智能编辑区域重绘做动画，如果用真实场景的话大概就是这么个效果：

尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果（三）

这里还有一个动漫效果的，所有元素的变形都太严重，根本没法看。

尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果（四）

文中最开头也说了，本身这玩意流畅度就够呛，再加上智能编辑和区域重绘的模型，就烂得非常的变型了。真实场景的伪人问题特别严重。

可以说在文生图是3.0的场景下， 智能编辑 和 区域重绘 基本是没法用的。

扩图

这功能本来也没啥太大用，就是在部分不在意内容的场景下填补空白，比如视频封面图啥的。

只不过由于出图分辨率是固定的，所以扩图的同时还在缩图。

我曾想着或许可以靠反复扩图的方法，做一个绝命毒师结局的 Baby Blue 场景，结果，豆包的扩图一直往竖屏海报这个方向跑。

screenshot_on_b85m_by_flameshot_at_2025-04-08_22-00-03

想了多种办法调整之后

jpg-screenshot_a4ab1c79e10c4b187093e6fe35a8629c

重点目标被糊成一堆气泡，想要用来重复的边缘图形也糊成了抽象油彩。或许自己拿 GIMP 克隆工具自己图都更靠谱。

豆包应用

说完模型，说下豆包这玩意。

声明：我个人本身是很讨厌头条系的（现在可能叫做字节系？）。但相对于厌恶程度，头条系在我眼中最多只能排第三。

这玩意应该是有一个网页版，一个 Chrome/Edge/Safari 插件，一个 Windows/MacOS 浏览器，一个手机客户端。Chrome插件和 Windows客户端我都试过了，正经人谁会用这玩意？退一步讲，哪个产品经理想出来专门做一个浏览器只为了跑一个网页？脑残的阿里吗？

手机APP我没有试过。

网页端则只有短音验证码登录、APP扫码登录和第三方登录。

但是没有强制登出所有其他已登录对话的功能。

screenshot_on_b85m_by_flameshot_at_2025-04-15_00-42-44

这就意味着假如哪天手机短信验证码泄露了，其他人就可以一直在他的界面上一直监视你的所有操作。

仅是安全性这一块就可以打0分了。

豆包模型背后的火山方舟

这玩意背靠的是头条系字节跳动旗下的 火山引擎 。

火山引擎这玩意想要登录进去可以说特别困难，页面的稳定性烂得出奇，大部分情况下都是后端API超时，跨域请求出错，前端条件判定出错，然后报错一大堆。可以说这玩意至少在商业场景下就是一坨屎。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-39-34

进去之后看到的就是一个山寨阿里云/腾讯云一样的界面。云服务供应商虽然都长得差不多，但是至少阿里腾讯的业务至少控制台每次都能正常登录。

说实话我一直以为豆包这娱乐性的APP大概是为了向公众展示技术实力的一个窗口，而其背后应该有更多的能提供更强更稳定的商业服务。

至少稳定这一块是没了。

而作为更强这一块呢？

文生图的付费接口仍然是旧版的2.0模型。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-38-10

付费服务比免费服务还烂，是超出我的想象的。

screenshot_on_b85m_by_flameshot_at_2025-04-11_22-06-44

这个输入接口甚至比百度AI的公开服务还烂，而出图质量甚至都没有上一个版本的豆包高，只有百度AI的水平。

而且和豆包以及其他国内平台一样，文生图功能都只有一个文字输入接口，非常的落后。（现在的文生图平台基本是以「正面」和「负面」两个文字输入接口存在的，「负面」输入可以保证输出结果中不存在你完全不想要的内容）

（有一种不愧是头条系的感觉，除了搞出致瘾性算法之外什么都搞得稀烂的样子）

至于其他产品，图文生视频这玩意目前就是搞笑的，屁用没有。你可以看我在B站做的这个视频合集：合集·用AI生成的视频也太离谱了，这玩意最多只能用来做搞笑段子。

screenshot_Shotcut_00_02_29_833

语音模型，开放业务只有声音复刻和同声传译。

文本模型，这玩意真的有人想要花钱用这玩意吗？用途会是啥啊？自己搞个假的 DeepSeek 搞分销？

结尾

反正目前这个AI水平，放在个人手中，仍然只是个玩具。线上服务基本上都是不靠谱不稳定随时跑偏做得稀烂还想捞钱；线下个人用户很难将业务稳定的部署，硬件软件都是坎。

尤其是我目前的确有几个AI编程的需求，就是根据已有的html文本，直接生成带锚链接的目录。这个需求我在豆包百度 copilot 下同时试了 bash node php python 三个语言，基本全部都是语法错误，基本都是瞎写的，正则语法都是错误的。狗屎一堆。

上一篇文章《是时候在我这里聊一下人工智能了》，除了一条有效评论之外，全是来刷AI的评论。

screenshot_on_b85m_by_flameshot_at_2025-04-08_13-21-07

诚然我已知现在人的确没几个能读得下去文字，更别说是我写的这种枯燥无味的长篇大论。但是人机刷评论这操作属实是有些人放弃做人了，毕竟独立博客不需要刷活跃度来提升展示率，这些人机刷的这些玩意属实是真把脑子丢了塞了个热度算法塞自己头骨里了。

只能说互联网真的退潮了。「潮水褪去，才知道谁在裸泳。」结果发现在水里泡着的全都没穿裤子，大家都在那甩小屌，那就无所谓了。

前几年我的某个亲戚嚷嚷着要培养自己家还在上小学的孙子搞黑客，现在又要做直播，我就等他家啥时候搞AI了。

The post 讲讲目前使用线上AI文字生成图片工具的局限性 first appeared on 石樱灯笼博客.

AI工具-效率提升神器-使用体验 2023/5/4

AI工具-效率提升神器-使用体验

遐说

2023年5月4日 00:00

ChatGPT发布到现在，仅过去了四个月。而衍生出的各类产品、插件和竞品，井喷式地爆发着。此文记录个人使用GPT相关产品的个人体验，以及一些个人使用建议。

推荐豆包电脑客户端应用 2025/6/4

集合！我的AI员工们

Jack‘s Space

2025年6月2日 22:27

AI 发展可谓日新月异，前脚 Google I/O 的发布会刚结束，后脚又发布了最新的 claude 4 大模型。这两天，DeekSeek 也升级了他们的R1模型。昨日， ChatGPT 还是“小甜甜”，今天已是“牛夫人”了。然而，无论多么强大的模型，目前都还无法做到无所不能，不同的模型有各自擅长的领域，因此在日常工作中，我常常需要根据需求选择不同的模型。这篇文章将总结一下我手头的AI“员工们”，以及我常常给他们安排的任务。

太长懒得看

Gemini：DeepResearch、文字润色、翻译、代码编写、视频生成
ChatGTP：文字润色、图像生成
Claude：代码编写，文字润色
Grok：联网搜索、图像生成
DeepSeek：翻译、代码编写（将来）
腾讯元宝：联网搜索
点点：联网搜索
豆包：文字润色、图像生成
即梦：视频生成
其他好用的工具：NotebookLM、Trae/Windsurf/Cursor、Cherry-studio、Juchats、UniAPI

联网搜索

Gemini: 得益于Google搜索的强大支持，Gemini在联网搜索方面表现出色。特别是使用Deep Research功能进行严谨的学术搜索时，Gemini能够帮我访问近百个网站，花费十几分钟为我总结出内容，且参考的网站质量非常高，让我对其生成的报告充满信心。唯一不足的是，Gemini在日常提问中缺乏明确的“联网”按钮，导致联网功能有时不能稳定触发。

Grok: 是马斯克的X公司（前身为推特）的模型。如果想要搜索的信息已经在X平台上引发过热烈讨论，Grok往往能够提供非常及时、相关的结果。
点点: 这是小红书的AI模型，只有手机客户端。小红书作为国内发展迅速的社交媒体平台，拥有大量姐妹分享各类攻略、测评和技巧。当我需要快速获取一些生活类的攻略或测评信息时，点点是我常用的选择。
腾讯元宝: 公众号是国内最大的长文内容平台之一，包含了许多优秀的长篇文章。元宝凭借背靠公众号平台的优势，在搜索信息时展现出天然的竞争力，因此它也是我常用的AI工具之一。

文字润色

我通常不需要AI帮我大段写作，更希望它能在不改变原有内容和行文风格的基础上，对文字进行润色，避免语法问题影响表达流畅性。为此，我希望AI尽量少做改动，减少自主发挥。在众多 AI 模型中，ChatGPT最符合我的需求。但当它表现不佳时，我也会尝试使用Gemini和Claude。

文字翻译

对于大模型来说，翻译并不难，尤其是英译中。我尝试过将同一段论文摘要交给不同的大模型翻译，发现它们的翻译效果都很不错，差异主要体现在行文风格和用词上。主观上觉得，Gemini 2.5 Pro和豆包在易读性上稍微优于其他模型。

为了更方便快捷地翻译，我通常会结合不同的AI客户端使用。此时，我常使用提供免费API的Gemini 2.0/2.5 Flash，它不仅翻译效果不错，而且速度也非常快。此外，DeepSeek V3 API 价格低廉，且有很多平台有免费额度赠送，也是一个不错的选择。

代码编写

相信大家已经看到过不少使用AI编写软件的例子了。在工作和生活中，我也会利用AI编写程序、分析数据，或者制作博客插件。目前，我主要使用Gemini 2.5 Pro和Claude 4，两者各有特色。

Gemini 2.5 Pro支持长达100万token的超长上下文，因此在进行多轮对话修改程序时，它能表现得更好，出现“遗忘”的情况较少。而且，Gemini更“听话”，会更遵从指令，较少出现“自作聪明”的情况。与Gemini进行头脑风暴时，我觉得它更稳定，通常能给出更合适的代码建议。

Claude 4是最近才开始使用的，通常只有在Gemini表现不佳时，我才会启用它。虽然Claude在代码能力上确实领先其他模型，评分也远高于竞争对手，但由于Claude 3.7版本时，它曾经常自作主张，擅自修改我未要求调整的代码，因此我对它仍然心有余悸。

听说最近更新的DeepSeek R1 0528版本在代码能力上突飞猛进，我打算在未来的工作中多加尝试，看看是否能取代Gemini 2.5 Pro。

图像生成

当需要生成图片时，尤其是制作博客封面图，我通常会优先使用ChatGPT，其次是豆包和 Grok。ChatGPT能够更好地理解我对图像效果的要求，并且输出稳定，只要提供合适的提示词，就能生成理想的图片。唯一的缺点是，免费用户生成图片时需要排队，速度较慢。

豆包在趣味性方面表现较强，有时会使用它来尝试一些有趣的提示词。

视频生成

我并没有很强的视频需求，主要是为了娱乐。Google I/O发布的Veo3能够生成8秒的视频，并且会自动为视频配上合适的音效和背景音乐，效果非常自然，令人惊艳。另外，使用即梦生成的视频效果也不错，搭配ChatGPT或豆包生成的图片进行创作，趣味十足。

https://www.iesdouyin.com/share/video/7508290944656018742

好用的工具们

NotebookLM: 这是我近期最喜欢使用的工具，属于Google的产品。用户可以将文件、网站链接、YouTube链接等资料投入一个“笔记本”中，AI根据勾选的资料来思考并回答问题（可以选择全部或部分资料）。用户还可以追溯回答中引用了哪些具体资料，极大减少了AI的幻觉问题（在我的使用中没有遇到幻觉），提高了对回答的信心。此外，NotebookLM还支持根据资料库生成语音播客，用户可以听到两个AI主播的对话，快速理解内容。如果你使用英文，还能中途参与对话。

Trae/Windusrf/Curor: 这些是基于先进大模型（如Claude 4、Gemini 2.5 Pro等）的AI驱动集成开发环境（IDE），可以提供智能代码生成、实时补全、自动调试和优化等功能，大大提高了编程效率。

Cherry-studio：一款开源桌面客户端软件，支持Windows、Mac和Linux平台，集成了多种大型语言模型（如OpenAI、Gemini等）。界面直观，用户可以开箱即用，提供多模型对话、知识库管理、AI绘图、翻译等功能，最近还新增了划词功能。

Juchats：我喜欢将它形容为一把小瑞士军刀，集成了GPT、Claude、Gemini、Grok、DeepSeek等流行的大模型，并且进行了进一步开发，提供一些独特的小功能，如X信息流总结、文档解析等。最关键的是，Juchats非常适合国内用户使用，不需要特殊的上网技巧，并且免费用户也能享有一定的额度。
UniAPI: 一个性价比不错的的 AI 模型 API 转发服务平台，提供各个模型的 API，方便无法自行注册使用 GPT 、Claude 等 API 的用户。价格也比官方更实惠，注册就可以提供 1 美元的试用。

小结

以上是我在日常生活和工作中探索 AI 工具时的一些心得体会。这些都仅仅是我个人的主观感受和粗浅见解，毕竟每个人在各自特定的使用场景和需求下，或许都会有独一无二的AI选择和应用方式。

我非常期待能在评论区看到大家更多真知灼见和精彩分享，一起交流我们是如何驾驭AI，让它更好地为我们服务！

集合！我的AI员工们最先出现在Jack's Space。

用trae编程 2025/5/31

用trae编程

郑永博客

2025年5月31日 11:13

trae西班牙语里是带来的意思，想买专业版，点击链接居然显示所在地区买不了，有钱都不赚吗？

所以最近一直在用免费版，里面有最新的claude 4 sonnet，编程非常强悍。

之前用trae速度很快，最近需要排队，而且排队有时候都有100多位，所以只能等。

之前以为这排队是因为很多人在用，于是在考虑人夜深人静的时候用，但发现也一样，我在想，难道他们在睡觉的时候也在给ai自动发送编程任务，所以不管什么时候，都会排队了。

这和ai编程的初衷有点吻合，就是你直接说，他帮你做，你喝完咖啡的功夫他就帮你写好了。

可我偏偏就是使劲的问个不停，马不停蹄，感觉自己还是很忙。

这不，现在多了个排队，你不得不喝咖啡等了，好像突然变得轻松起来了，虽然刚开始嫌他慢，但我发现这是不是变相在帮我放慢脚步，解放双手，因为我现在懒得写代码了，感觉写出来也没有ai写得好，这个排队就看作是给对方时间做。

我之前觉得自己做完就不用再写了，但没想到我以后可能得天天更新功能，就是后期维护，时不时的有人提出建议，你就要跟进，所以我会一直用这个ai工具维护代码，而且不用很累，我只要和我的代码团队（ai）交流即可，吩咐它写代码并检验，这就是我日后要做的事情。

本文完。

赏

转载请注明：https://xptt.com 用trae编程

初涉 ML Workflow 系统：Kubeflow Pipelines、Flyte 和 Metaflow 2025/5/19

初涉 ML Workflow 系统：Kubeflow Pipelines、Flyte 和 Metaflow

四火的唠叨

2025年5月19日 07:18

入职 Coupang 两个月了，第一个月主要上手和开发 BOS（Business Operating System）系统，第二个月开始调研选型 ML Workflow 平台。前者目前来说相对比较简单，后者对我来说是一个新坑，也比较有意思，随便写写技术上的体会。

先扯点题外话，其实这次求职有几个比较符合我预期的机会，可在思考之后，我基本上毫不犹豫就选择了 Coupang 这一家。最主要的原因，并非因为雇主，而是因为要做的事情。一个相当规模的团队，在大干一场的早期阶段，要在搭建起属于自己相当规模的 AI infra 来。

我觉得软件行业的巨大的变革，新世纪以来就三次，第一次是互联网应用的崛起，我太小没能做啥；一次是十几年前的 cloud，看着它从爆发式增长到如同水和电一样进入我们的生活，可我算是错过了它比较早期的阶段，即便相当长的时间内我在 Amazon，但是我却并不在 AWS；而这一次，当 AI 的浪潮再来的时候，我就很想行动起来，真正投身其中。程序员的一生能有几个赶这样大潮的机会呢，我不想再错过了。虽说我没有 AI 的技术背景，但我知道 ML infra 到 AI infra 却是个我可以切入的角度——从我最初接触软件开始，尤其是学习全栈技术的时期开始，我就认定，技术是相通的，这十几年来我一直在如此实践。因此在调查和思考之后，我觉得这是一个我不想错过，并且更重要的是自认为能够抓住的机会。

当然，就此打住，我目前只是这个领域的初学者，因此理解并不深入。

Why ML Workflow?

接着说正题，在这一个月之前，虽然我经历过不少关于 workflow 的团队，虽然我参与过从零写完整的 workflow 引擎，但这些都是针对于通用 workflow 而言的，我对于机器学习的工作流，也就是 ML workflow 可以说一无所知。于是在问题和需求调查的过程中，第一个关于它的问题就自然而然出现了，我们是否真的需要 ML workflow，而不是通用的 workflow 系统？

其实，这主要还是由于 ML 的生态所决定的。通用 workflow 可以完成很多的事情，但是在机器学习到 AI 的领域内，这个过程中最主要的目的就是把 raw data 给转换成经过训练和验证的 model，其中有很多部分都是有固定模式，因而自成体系的。举例来说：

ML workflow 关注数据处理和 ML 或者 AI model 的生命周期，但是通用的 workflow 往往关注将业务流程自动化；
ML workflow 需要将 artifact 管理、model registry、model insights 和 experiment tracking 等工具集成起来，但是通用的 workflow 往往是业务 application 层面的集成；
ML workflow 执行的 task 往往需要高 GPU 使用和高内存，这和通常我们讨论的 workflow 的 task 对于 CPU 的使用完全不同。

总之，ML workflow 更像是一个 workflow 中的重要分支，它的特异性显著，因而从架构上它有很多在我们谈论通常 workflow 的时候不太涉及的特点，并且它们具有明显的共性。

ML Workflow 的固定套路

Workflow 这样的系统，和很多 infra 系统不同的地方在于，它具有全栈的特性，需要从端到端从用户完整的 use case 去思考。回想起通用的 workflow，我们会想，用户会去怎样定义一个 Workflow，怎样运行和测试它，并且怎样部署到线上跑起来。这其中的前半部分就是 development experience，而后半部分则是 deployment experience。

首先，对于 development experience 这个角度，ML workflow 有它独特的地方，其中最主要的就是 Python SDK。

通用 workflow 我们讲定义一个新的 workflow 的时候，我们通常都需要写一个 DSL，里面定义了一大堆 task 和依赖关系，而对于做得比较好的 workflow 系统来说，可能还需要一个可视化的 drag-and-drop 界面来方便地创建 workflow。

但是对于 ML workflow 来说，它最特殊之处是对于 Python code 的无缝集成。因为 Python 之于 ML 的地位就像是 Java 之于企业架构的地位，任何一个 ML workflow 客户端首先要考虑支持的编程语言就是 Python，用户通过往大了说是 SDK，而往小了说则是简单的 Python decorators，就可以定义 task 和 workflow。比方说，一个简单的 Flyte 的 hello world：

from flytekit import task, workflow

@task
def say_hello(name: str) -> str:
    return f"Hello, {name}!"


@workflow
def hello_workflow(name: str = "World") -> str:
    return say_hello(name=name)

在 ML workflow 的世界中，这是除了 DSL 和视图化之外的第三种定义 workflow 和 task 的方式，也是必须具备的方式。

第二个，对于 deployment experience 的角度，大致上是基于 Kubernetes 从 control plane 到 data plane 固定的交互机制。

我不知道这是不是一种关于 ML workflow 的约定俗成，但是通过调研 Kubeflow Pipelines、Flyte 和 Metaflow，我发现这三种对于 control plane 到 data plane 的交互模式是出乎意料地一致。

KubeFlow Pipelines: client [KFP SDK] -> control plane [API Server -> K8s APIs (CRD changes) -> Workflow Controller / K8s Operator] -> data plane [K8s API -> creating Task Pods -> blob storage]
Flyte: client [Flyte SDK] -> control plane [Flyte Admin -> K8s APIs (CRD changes) -> Flyte Propeller / K8s Operator] -> data plane [K8s API -> creating Task Pods -> blob storage]
Metaflow: client [Metaflow SDK] -> control plane [Metaflow Service -> K8s APIs (CRD changes) -> Metaflow Scheduler / K8s Operator] -> data plane [K8s API -> creating Task Pods -> blob storage]

注：也有把 Operator 那一层归为 data plane 的，我觉得都说得过去。

其中 Metaflow 说的是使用 Kubernetes 集成的情况，因为它并不是非得依赖于 Kubernetes。

但大多数使用都是基于 Kubernetes 的，而且基本上都是这个套路，control plane 的 service 收到请求以后，通过创建 K8s CRD objects 的方式告知 workflow controller（scheduler）来执行 workflow，对于 task 的执行通过调用 data plane 的 K8s API 来创建 task pods 执行。

对于特殊的 task，需要交由特殊的 K8s operator 来执行，那么这个 “交由” 的过程，也是通过 K8s 这一层的 CRD change 来实现——Propeller 负责创建 CRD，而对应的 operator 负责 monitor 相应的 CRD 改变并相应地执行任务。Propeller 和 operator 二者互相并不知道对方的存在。这种方式对于保证 operator 的重用性和跨 workflow 系统的统一性简直是太棒的设计了，我们在 try out 的时候，就让 Kubeflow Pipelines 系统中的 operator，去执行 Flyte 给创建的 PTJob 和 TFJob。

关于架构，我觉得 Flyte 的这张架构图对于 components 层次的划分说得非常清楚，下面的 control plane 和 data plane 是可以有属于自己的 cluster 的，不过值得说明的是，真正最终执行的 task pods，也就是图中的最下面的 K8s Pod，也是可以放在另外的 cluster 上，由远程的 K8s API 调用触发的，这样就可以带来更多一层的灵活性：

[Update on 5/31] 后来看到这篇非常好的分享《Flyte School: Flyte Architecture Deep Dive》，对于初步了解的工程师来说，推荐观看。下图也来自于它。

ML Workflow 的特性比较

再来比较这三个 workflow 的优劣，我并不打算列全，而是简单说说自己印象最深的几点：

Kubeflow Pipelines 基本上有着最大的社区，因此它相对比较成熟，有自带的基于 CRD 的 K8s-native 的集成，因此可以直接跑 TensorFlow job 和 PyTorch job 之类的；UI 功能也比较强大，可以通过 drag-and-drop 来定制 workflow，也支持 yaml 文件创建 workflow。
Flyte 最吸引人的是它的 Strong Typing，很多错误能够在编译期本地就能够发现（Kubeflow pipelines 和 Metaflow 都只是 hints）；开发过程中，本地直接就能跑，而不需要什么 container；对于 multi-tenancy 支持得最好（比如 RBAC 和 tenant 的 Quota 机制）。
Metaflow 的 setup 特别简单，而且本地可以直接调试；它对于 AWS 的一些 service 直接可以集成使用，特别方便（比如 Step Functions）；Kubernetes 并不是一个依赖，也可以跑在 VM 上等等。

在我把这三者全部在 EKS 上搭了一遍并使用了一圈，也仔仔细细对别了特种特性和优劣之后，我对于 Flyte 的特性比较感兴趣，我觉得它们对我们团队也比较有用。

具体来说，很多区别但最重要的是两个：一个是 strong typing，其它两个都只支持 Python 类型的 hints，就这一点上，和一些 ML engineer 也讨论过，把问题发现在本地，是非常吸引人的；再一个是 multi-tenancy，对其 Flyte 有很多原生的特性支持，在平台完成之后，我们希望把平台上 ML 的能力开放出去，因此这是很重要的一个特性。此外，我也在考虑对于一个 control plane + 多个 data plane 这种 use case 的情况，这部分的需求还比较模糊，但是 Flyte 依然是这方面支持特性相对比较多的一个。

无论最后的结论为何，我希望我们能够比较灵活地部署选中的这个 ML workflow system，比方说，在 CLI 上，我们考虑在更高维度建立出一层，用户使用同样的命令，无论下面执行的 workflow 系统是什么，都不需要改变，这样一来，等到未来如果我们需要支持第二个，应该能够比较容易地整合进去。

文章未经特殊标明皆为本人原创，未经许可不得用于任何商业用途，转载请保持完整性并注明来源链接《四火的唠叨》

你可能也喜欢看：

字节豆包AI还是比较懂男性: 可能和抖音数据有关? 2025/5/15

字节豆包AI还是比较懂男性: 可能和抖音数据有关?

2025年5月15日 01:21

今天在一个群里看到四张由字节的豆包（Doubao AI）生成的美女图，着实震撼。现在的AI技术已经发展到这种程度了吗？

刚开始我还以为是真人照片，直到注意到右下角写着“豆包AI”。不得不说，字节的这波操作真是让不少男性同胞“受益”匪浅（字节豆包模型训练数据很可能有来自其抖音和Tiktok平台，所以更懂男性）。AI的进化速度之快令人惊叹，各大模型之间也越来越“内卷”。很多行业都在被AI渗透：程序员、设计师、律师、医生……并不是说这些岗位会因此消失，但竞争会更加激烈，岗位需求可能也会减少。尤其是对那些懂得使用AI工具的高级从业者来说，卷得只会更厉害。

这四张图完全击中了我的审美：美女站在镜子前自拍，高跟鞋、短裙、长发、身材丰满，每一处细节都恰到好处，而且看起来毫无“AI感”。

注意美女脚上的青筋，还有手机闪光，阴影等，细节很细致。

其实我已经很久没有关注AI生成美女图了，之前总觉得那些图风格千篇一律，容易审美疲劳，也可能是提示词的问题。

这种效果可能在ChatGPT、Grok、Midjourney等平台上未必能生成，毕竟这种尺度对某些AI来说可能有些“越界”，系统可能直接提示：“不符合规定，无法生成”。

2025-05-14-10.19.09 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

2025-05-14-10.19.16-1 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

2025-05-14-10.22.27 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

2025-05-14-10.19.13 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节豆包AI生成的大长腿美女/短裙/丰满/长发/高根

吉卜力风格/Ghibli

把上面这四张的高挑美女图，让ChatGPT来生成吉卜力风格的照片，尽可能保留细节：只需一张图, AI就能拍大片: Pollo引爆短视频创作革命

ChatGPT-Image-May-24-2025-08_12_53-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格，尽可能保留照片细节。

ChatGPT-Image-May-24-2025-08_12_48-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格，尽可能保留照片细节。

ChatGPT-Image-May-24-2025-08_12_40-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格，尽可能保留照片细节。

最后这一张生成的有点胖（丰满）了，因为ChatGPT生成的内容也会有点随机，当然你可以让它改，直接和它说需求即可。ChatGPT相当于一个设计师/PS大师，你是甲方，你只需要和它说需求即可。

ChatGPT-Image-May-24-2025-08_12_24-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格，尽可能保留照片细节。

让它改了“有点胖了，改瘦一点，大长腿一点”，不过感觉还是上面第一版本比较好，丰满一些好看一下。

ChatGPT-Image-May-24-2025-09_01_45-PM 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

字节大语言模型豆包AI生成的高挑大长腿美女黑丝高跟鞋让ChatGPT生成Ghibli吉普力风格，尽可能保留照片细节。

有意思的/雅俗共赏

ChatGPT 可以拿来做什么？

ChatGPT 通用人工智能

Grok 3

AI爆改吉卜力风格照片? ChatGPT-4o要收费, 但这里有免费方法!

字节/豆包/AI

字节豆包AI还是比较懂男性: 可能和抖音数据有关?

本文一共 1253 个汉字, 你数一下对不对.

字节豆包AI还是比较懂男性: 可能和抖音数据有关?. (AMP 移动加速版本)

扫描二维码，分享本文到微信朋友圈

75a5a60b9cac61e5c8c71a96e17f2d9c 字节豆包AI还是比较懂男性: 可能和抖音数据有关? AIGC-图片人工智能 (AI) 女人小确幸有意思的福利

The post 字节豆包AI还是比较懂男性: 可能和抖音数据有关? first appeared on 小赖子的英国生活和资讯.

按揭贷款(房贷,车贷) 每月还贷计算器去年给银行借了17万英镑买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定是比较常用的. 简单来说就是每个月交的钱是...
特朗普加关税的公式竟然是EXCEL里弄的? 这两天中美关税大战越演越烈，据说，特朗普加关税的计算方式竟然是直接在EXCEL电子表格里弄的，具体如下：其中 I 是 Import，进口；E 是 Export 出口。优美又实用的公式家族又添新成员勾股定理：欧拉恒等式：牛顿运动定律：爱因斯坦质能等价公式：特朗普的“互惠关税”公式：，其中 I...
智能手机 HTC One M9 使用测评虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
你要找什么样的老婆? 找媳妇的标准昨天和网友在剑桥面基, 网友奔现, 他从爱尔兰过来, 小我12岁, 就聊到了找对象的标准. TLDR; 找老婆不要(只)看颜值, 而要注重性格, 为人处事和顾家等更重要的品质, 当然性和谐也很重要. 在当今社会, 人们对于找伴侣的标准有所不同. 有些人认为颜值是最重要的, 因为外貌吸引力可以让人在日常生活中感到愉悦, 这是人的本性,...
同一台服务器上多个WORDPRESS站点的一些设置可以移出去我自从把所有网站都挪到一处VPS服务器上就发现很多事情省事很多可以同时管理多个网站包括 WORDPRESS博客. 比如我有四个WORDPRESS博客然后我就把通用的一些资料给移出去移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了相同的数据库资料. 1 2...
公司请的专业摄影师公司来了新的CEO管理之后,很多事情都不一样了, 特别是一些公司对外形象的事情就特别的在意, 比如公司网站用上SSL.现在公司还有空闲的位置,请速来(钱多人不傻). 一月份出差回LUTON,刚好公司请来摄影师给高层管理照像放网站上的,于是我也凑了凑热闹(但是却还不够资格被放在公司网站上),不过没关系,放这里也差不多. 人到中年, 沧桑感强了些. 更新更新: 同事用他NB的单反给谢菲尔得办公室的人也拍了一组这样的照片.看起来很不错, 很专业,灯光,道具应有尽有.我已经用在了LINKEDIN页面上,立马高大上. 本文一共 230 个汉字, 你数一下对不对. 公司请的专业摄影师. (AMP...
在英国给孩子换学校的经历: 孩子离开了村里的小学由于搬了家, 孩子上学得提前半小时出门了, 因为早上堵, 也得开车半小时才能到. 之前在 Fen Drayton 村庄上小学, 早上8:45学校门开, 9点敲钟孩子排队依次进入教室, 我们由于在村里, 只需要提前5分钟出门和孩子一起走路就可以了. 现在一下子早上变得很匆忙, 得叫孩子起床, 做早饭,...
终于在Steam平台上玩了最终幻想7-Remake-蒂法和爱丽丝真是美啊前不久先是我用了7年的HPZ800的服务器在车库里寿终正寝了, 然后就是感觉小电脑NUC太慢, 所以又又搞了一台微软的 Surface Studio Laptop, 这电脑真是快, 自带独显, 玩DOTA2+鱼尾屏很爽. 在STEAM平台花了69.99英镑买了最终幻想7-Remake. Final Fantasy VII – Remake...

FaceFusion 3.2.0 — 进阶体验（不要瑟瑟） 2025/5/11

FaceFusion 3.2.0 — 进阶体验（不要瑟瑟）

obaby

2025年5月11日 16:31

书接前文，如果要处理普通的视频资源，根据上一篇文章的内容完全就足够了。

但是，如果你想处理点多少有点暴露或者纯粹的瑟瑟内容，你是怎么都进行不下去滴。

启动脚本：补上一个快速启动face fusion的ps代码，保存为ps1，相关路径改成自己的，启动的时候直接拖到powershell里面执行即可。

conda deactivate
conda init
conda activate facefusion
cd  E:\facefusion3\facefusion
python facefusion.py run --open-browsers

现在来说下瑟瑟的问题，一般这时候会卡在分析完成的地方：

analysing：100%之后就没动静了，原因在于视频的分析完成之后发现你的视频有瑟瑟内容，而至于瑟瑟内容的检测是通过content_analyser.py中的detect_nsfw方法实现的，如下（这个是我改完的）：

def detect_nsfw(vision_frame : VisionFrame) -> List[Score]:
    nsfw_scores = []
    model_size = get_model_options().get('size')
    temp_vision_frame = fit_frame(vision_frame, model_size)
    detect_vision_frame = prepare_detect_frame(temp_vision_frame)
    detection = forward(detect_vision_frame)
    detection = numpy.squeeze(detection).T
    nsfw_scores_raw = numpy.amax(detection[:, 4:], axis = 1)
    keep_indices = numpy.where(nsfw_scores_raw > 1.0)[0]

    if numpy.any(keep_indices):
        nsfw_scores_raw = nsfw_scores_raw[keep_indices]
        nsfw_scores = nsfw_scores_raw.ravel().tolist()

    return nsfw_scores

主要就是下面这一行，关于nsfw置信度的问题，原来是0.2 直接改到1.0就行了，毕竟，置信度不会超过1

keep_indices = numpy.where(nsfw_scores_raw > 1.0)[0]

重启进程，再次运行：

现在就会继续往下进行了。

视频资源文件导致的异常：最后来说下视频文件异常导致的崩溃，对于一些文件可能会出现下面的错误

Analysing:  95%|====================================================   | 3625/3800 [00:19<00:00, 189.67frame/s, rate=0]
Traceback (most recent call last):
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\gradio\queueing.py", line 625, in process_events
    response = await route_utils.call_process_api(
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\gradio\route_utils.py", line 322, in call_process_api
    output = await app.get_blocks().process_api(
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\gradio\blocks.py", line 2146, in process_api
    result = await self.call_function(
             ^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\gradio\blocks.py", line 1664, in call_function
    prediction = await anyio.to_thread.run_sync(  # type: ignore
                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\anyio\to_thread.py", line 56, in run_sync
    return await get_async_backend().run_sync_in_worker_thread(
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\anyio\_backends\_asyncio.py", line 2470, in run_sync_in_worker_thread
    return await future
           ^^^^^^^^^^^^
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\anyio\_backends\_asyncio.py", line 967, in run
    result = context.run(func, *args)
             ^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\gradio\utils.py", line 884, in wrapper
    response = f(*args, **kwargs)
               ^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\uis\components\instant_runner.py", line 82, in run
    create_and_run_job(step_args)
  File "E:\facefusion3\facefusion\facefusion\uis\components\instant_runner.py", line 97, in create_and_run_job
    return job_manager.create_job(job_id) and job_manager.add_step(job_id, step_args) and job_manager.submit_job(job_id) and job_runner.run_job(job_id, process_step)
                                                                                                                             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\jobs\job_runner.py", line 11, in run_job
    if run_steps(job_id, process_step) and finalize_steps(job_id):
       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\jobs\job_runner.py", line 72, in run_steps
    if not run_step(job_id, index, step, process_step):
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\jobs\job_runner.py", line 58, in run_step
    if job_manager.set_step_status(job_id, step_index, 'started') and process_step(job_id, step_index, step_args):
                                                                      ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\core.py", line 323, in process_step
    error_code = conditional_process()
                 ^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\core.py", line 340, in conditional_process
    return process_video(start_time)
           ^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\core.py", line 418, in process_video
    if analyse_video(state_manager.get_item('target_path'), trim_frame_start, trim_frame_end):
       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\content_analyser.py", line 102, in analyse_video
    if analyse_frame(vision_frame):
       ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\content_analyser.py", line 77, in analyse_frame
    nsfw_scores = detect_nsfw(vision_frame)
                  ^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\content_analyser.py", line 115, in detect_nsfw
    temp_vision_frame = fit_frame(vision_frame, model_size)
                        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\vision.py", line 243, in fit_frame
    height, width = vision_frame.shape[:2]
                    ^^^^^^^^^^^^^^^^^^
AttributeError: 'NoneType' object has no attribute 'shape'

这些问题还是处在content_analyser.py 问题在于对vision_frame 为None的帧进行检测，导致检测进程崩了，这里提前判断下是否为空，当然，更直接的办法是直接全部返回False 禁用nsfw检测。

参考下面的方法修改代码即可。

def analyse_frame(vision_frame : VisionFrame) -> bool:
    if vision_frame is None:
        return False
    nsfw_scores = detect_nsfw(vision_frame)

    return len(nsfw_scores) > 0

好啦，最后来看看小视频吧：

如果用姐姐我的照片换脸视频了，换好的视频记得给我发一份，嘻嘻

The post FaceFusion 3.2.0 — 进阶体验（不要瑟瑟） appeared first on obaby@mars.

FaceFusion 3.2.0 — 免费AI换脸工具初体验 2025/5/10

FaceFusion 3.2.0 — 免费AI换脸工具初体验

obaby

2025年5月10日 20:14

‌FaceFusion‌是一款功能强大的AI换脸软件，支持图片、视频和直播的换脸功能，其换脸效果真实、自然。FaceFusion不仅支持N卡处理程序（如Azure），还提供了CPU处理模式，适合各种硬件配置的用户使用‌。

功能特点：

‌多平台兼容‌：支持NVIDIA和AMD等主流显卡平台，满足不同用户的硬件需求‌。
‌多种处理模式‌：提供人脸替换、人脸高清修复和背景高清修复等多种策略，每种策略下包含多个模型可自由切换‌。
‌自定义设置‌：用户可以自定义执行线程、执行队列、最大内存和输出路径，电脑配置好的情况下可以适当调大这些参数‌。
‌预览功能‌：提供预览功能，可以自由选择换脸对象和多人换脸，单人换脸通过方位选择人脸、年龄选择人脸、以及性别选择人脸‌。
‌唇形同步‌：引入wave2lip处理器，同步口型动作，使视频更加自然‌。
‌面部对齐改进‌：通过68比5的地标变换，提高面部对齐的精确度‌。
‌新模型支持‌：增加uniface_256模型，提供更高质量的换脸选项；集成yoloface作为默认的人脸检测器模型，提升检测效率‌。

换脸这个东西，起之前也尝试过faceswap，然而，这个东西使用起来的确麻烦，需要提供的素材数量比较多，训练过程比较繁琐，并且最终的效果在样本数量不够大的时候就会发现实际效果一般：

让自己变成AV的主角【faceswap】

当然，图片换脸目前腾讯元宝提供了免费的传图换脸的功能，整体效果还是挺不错的。下面的是基于腾讯元宝来实现的：

不过，对于视频换脸的免费工具（手机上可用的），目前我还没发现，前端时间看到这个东西，于是尝试了一下。网上有个facefusion2.6.1压缩包版本，实际下载安装后，效果一般，由于缺少文件会导致无法运行，如果要使用的话，复制一个png文件，放到facefusion2.6.1\dependency\res目录下，命名为main.png即可。在运行过程中会显示这个图片。

之前还下载了一个DeepFaceLab_NVIDIA_RTX3000_series，这个东西要用比较麻烦的一点在于，只能靠命令一条一条的执行，看着目录下的文件就感觉头大了。

最终还是决定尝试下FaceFusion的最新版本，安装可以参考这个链接：Installation | FaceFusion

最简单方法，访问这个链接购买安装包：Windows Installer 20美元，解决了后面全部的问题。如果不想花20，那么继续往下看。

具体的步骤简单概述，以win11为准：

1.安装git conda ffmpeg

GIT
winget install -e --id Git.Git
Conda
winget install -e --id Anaconda.Miniconda3 --override "/AddToPath=1"
FFmpeg
winget install -e --id Gyan.FFmpeg

conda安装之后配置环境路径，添加到path下：

重启powershell继续后面的操作。

2.准备conda环境：

Initialize conda for your terminal:
conda init --all
Create the environment:
conda create --name facefusion python=3.12 pip=25.0
Activate the environment:
conda activate facefusion

3.安装gpu支持，我只有conda：

conda install conda-forge::cuda-runtime=12.8.1 conda-forge::cudnn=9.8.0.87

4.下载代码

git clone https://gitee.com/facefusion/facefusion
cd facefusion

5.安装（cuda）

python install.py --onnxruntime cuda

6.重新激活环境：

conda deactivate
conda activate facefusion

7.运行系统：

python facefusion.py run --open-browser

启动之后会自动下载各种特征文件，如果下载不动就多试几次，或者尝试挂个全局代理

现在就可以尝试换脸了：

按图选择模块进行换脸，此时就完成之后就可以下载了：

实际效果：

另外一个视频520AM：

实际效果就是这样的，不过安装的时候需要注意用户名路径不要存在中文。另外，这个东西貌似处理a片有问题，会报下面的错误，感觉还是视频文件问题，谁知道怎么解决的还望不吝赐教：

Traceback (most recent call last):
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\gradio\queueing.py", line 625, in process_events
    response = await route_utils.call_process_api(
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\gradio\route_utils.py", line 322, in call_process_api
    output = await app.get_blocks().process_api(
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\gradio\blocks.py", line 2146, in process_api
    result = await self.call_function(
             ^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\gradio\blocks.py", line 1664, in call_function
    prediction = await anyio.to_thread.run_sync(  # type: ignore
                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\anyio\to_thread.py", line 56, in run_sync
    return await get_async_backend().run_sync_in_worker_thread(
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\anyio\_backends\_asyncio.py", line 2470, in run_sync_in_worker_thread
    return await future
           ^^^^^^^^^^^^
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\anyio\_backends\_asyncio.py", line 967, in run
    result = context.run(func, *args)
             ^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\obaby\.conda\envs\facefusion\Lib\site-packages\gradio\utils.py", line 884, in wrapper
    response = f(*args, **kwargs)
               ^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\uis\components\job_runner.py", line 91, in run
    if job_id and job_runner.run_job(job_id, process_step):
                  ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\jobs\job_runner.py", line 11, in run_job
    if run_steps(job_id, process_step) and finalize_steps(job_id):
       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\jobs\job_runner.py", line 72, in run_steps
    if not run_step(job_id, index, step, process_step):
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\jobs\job_runner.py", line 58, in run_step
    if job_manager.set_step_status(job_id, step_index, 'started') and process_step(job_id, step_index, step_args):
                                                                      ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\core.py", line 323, in process_step
    error_code = conditional_process()
                 ^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\core.py", line 340, in conditional_process
    return process_video(start_time)
           ^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\core.py", line 418, in process_video
    if analyse_video(state_manager.get_item('target_path'), trim_frame_start, trim_frame_end):
       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\content_analyser.py", line 102, in analyse_video
    if analyse_frame(vision_frame):
       ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\content_analyser.py", line 77, in analyse_frame
    nsfw_scores = detect_nsfw(vision_frame)
                  ^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\content_analyser.py", line 115, in detect_nsfw
    temp_vision_frame = fit_frame(vision_frame, model_size)
                        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "E:\facefusion3\facefusion\facefusion\vision.py", line 243, in fit_frame
    height, width = vision_frame.shape[:2]
                    ^^^^^^^^^^^^^^^^^^
AttributeError: 'NoneType' object has no attribute 'shape'

系统默认缓存目录为：

C:\Users\obaby\AppData\Local\Temp\facefusion

要修改这个路径，修改 facefusion.ini文件：

[paths]
temp_path = ./temp
jobs_path =
source_paths =
target_path =
output_path =

修改完重启即可：

2.6.1版本安装包：

https://www.123pan.com/s/5DsaTd-5YGc.html

链接：https://pan.quark.cn/s/11bffd2d5993
提取码：ankQ

The post FaceFusion 3.2.0 — 免费AI换脸工具初体验 appeared first on obaby@mars.

2025年国内外免费AI绘图大比拼：腾讯元宝、通义万相、豆包等10款平台「德州扒鸡创意胶囊」实测 2025/5/7

2025年国内外免费AI绘图大比拼：腾讯元宝、通义万相、豆包等10款平台「德州扒鸡创意胶囊」实测

2025年5月7日 16:47

前言：AI绘图工具为何成为设计师新宠？

随着AI绘画技术的飞速突破，像Stable Diffusion、Midjourney等先进工具已经全面渗透到设计领域，成为众多设计师的得力助手。在当今数字化设计的浪潮中，免费的AI画图平台如雨后春笋般涌现。本文将对腾讯元宝、通义万相、豆包等10款热门免费AI画图平台进行详细实测，通过极具创意的「德州扒鸡创意胶囊」案例，为您揭秘哪款工具最能精准理解中文提示词，为设计师们在选择合适的AI绘图工具时提供有价值的参考。

核心测试案例解析

1.1 创意需求说明

设计目标：精心制作16:9比例的胶囊造型微缩场景，以满足特定的视觉展示和设计需求。
核心元素：
- 地域特色：山东德州，这座历史悠久的城市拥有独特的文化和地域风情，为设计增添了丰富的内涵。
- 产品植入：传统扒鸡，作为德州的标志性特产，承载着当地的美食文化和历史记忆。
- 风格要求：3D渲染光泽质感，这种风格能够使画面更加逼真、生动，展现出高品质的视觉效果。

提示词

参考下面的提示词帮我生成胶囊16:9图片，先基于地区和特产更改示例提示词中的内容然后再生成。
地区：德州
特产：扒鸡
示例提示词为：
一个胶囊形状的创意微缩场景，胶囊横放着。胶囊一半为活力的樱花粉色或现代的银灰色，印有白色的字“東京”和英文“TOKYO”。另一半透明，展示东京真实的特色建筑缩影——一座现代的东京塔或晴空塔微缩模型，完全包含在胶囊里面，不超出边界。背景为繁华的涩谷十字路口或浅草寺的微缩景象，整体风格3D渲染，具有梦幻感，使用C4D制作，材质有光泽感。

腾讯元宝

腾讯元宝：侧边栏 - AI画图

腾讯元宝是腾讯公司推出的一款AI助手工具，集搜索、AI 问答、文生图等功能于一体。其文生图功能允许用户通过文字描述生成图像，对于创意设计、内容创作等领域具有重要价值。用户只需输入一段文字，腾讯元宝即可根据文字内容生成相应的图像。此外，2025 年 2 月 21 日，腾讯元宝上线文生图功能，用户上传图片后，可通过 DeepSeek 模型解析内容并生成图文结合的创意结果（如分析图片场景、生成配文）；结合混元T1模型，可识别图片中的文字和场景，辅助生成更精准的绘图描述（例如上传风景图后，AI自动生成绘画关键词）。它还支持AI修图、风格、比例的切换，为用户提供了多样化的创作选择。

在本次测试中，腾讯元宝绘制出了示例提示词的图片，但未绘制修改后的图片

通义千问

通义千问：图像生成

通义千问是由阿里云研发的一款先进的人工智能语言模型，基于Transformer架构，通过创新的训练方法（如动态NTK感知插值、LogN - Scaling、窗口注意力机制）扩展上下文长度，其千亿级参数规模（Qwen2.5 - Max版本）结合混合专家模型（MoE）架构，在自然语言处理、多模态理解等任务中表现出色。它适用于多种自然语言处理任务，包括文本生成、问答系统、机器翻译、文本分类等，在各个领域都能提供出色的表现。同时，它整合图文生成（通义万相）、音视频理解（通义星尘），支持PDF、Excel等多格式文件分析，还具备企业级服务闭环，实现了阿里云生态整合，无缝对接电商、物流、金融等行业解决方案（如天猫精灵智能客服），并且支持私有化部署，满足金融、政务等敏感场景需求。其开源影响力也较大，Qwen系列模型下载量突破1.8亿，衍生模型数达9万，超越Meta的Llama系列。

在图像生成方面，通义千问绘制出了修改后的图片，但只画出了扒鸡，没有绘制出德州等信息。

豆包

豆包：侧边栏 - 图像生成

豆包是字节跳动开发的通用大模型，融合了自然语言处理、计算机视觉和语音识别等技术。它提供聊天机器人、写作助手以及英语学习助手等功能，可以回答各种问题并进行对话，支持网页、客户端、APP、插件等形式。基于豆包大模型，字节跳动打造了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”，以及星绘、即梦等AI创作工具，并把大模型接入抖音、番茄小说、飞书、巨量引擎等50余个业务，用以提升效率和优化产品体验。

豆包不仅在文本处理上表现出色，还具备强大的多模态交互能力，并且支持多风格、多比例的一致性多镜头生成，可应用在电商营销、动画教育、城市文旅、微剧本等领域。通过字节跳动内部 50+ 业务场景实践验证，每日千亿级 tokens 大使用量，使得豆包在推理效率和成本控制上具有明显优势。在图片生成方面，它一次性可生成多达 20 张 3D 风格的高质量图片，极大满足了设计、创意和娱乐等多样化需求。

在本次测试中，豆包完整绘制出扒鸡、德州等信息。

Gemini

Google于2023年推出Gemini系列模型，作为其多模态大模型的里程碑，旨在结合文本、图像、音频等多模态能力，同时提升代码生成、对话理解等核心功能。其核心目标包括多模态统一（处理文本、图像、音频等多种输入输出）、长上下文理解（支持超长上下文，如Gemini Pro支持16万token）以及高效推理（在轻量化版本如Gemini Ace中平衡性能与计算资源）。

Gemini系列有多个版本，如基础版本Gemini 1支持多模态任务，适用于通用场景（如问答、摘要生成）；高性能版本Gemini Pro面向复杂任务，具备超长上下文处理能力（支持16万token的上下文输入，适合长文档分析或复杂对话），多模态能力增强，可生成或理解高质量图像描述、音频内容，还支持代码生成；轻量化版本Gemini Ace优化成本与速度，具有低延迟推理特点，适合实时交互（如聊天机器人），适用于移动端或资源受限环境；2024年更新的Gemini 2新增视频理解能力，增强了推理和代码生成能力。

在文生图方面，Gemini在自然语言的修改指令理解、材质质感复现、局部细节微调方面，达到了部分生产创作环节完全可用的水准。例如，它能完成简单形体的材质变换、连续微调形态细节、大幅度改变视角，还能将手绘稿转设计渲染图并拍出产品宣传图，一次性生成多套不同风格的设计，以及进行抠图、换背景、打光影等操作。不过，它也存在一些局限性，如多模态生成能力方面图像生成质量可能不如专用模型（如DALL·E），实时视频处理能力复杂视频分析仍需优化，高性能版本（如Gemini Pro）部署成本较高。

在本次测试中，Gemini绘制出了毫无相关的事物，但却有Dezhou字样。

即梦AI

即梦AI：图像生成

即梦（Jimeng）是字节跳动旗下的一个融合了前沿AI技术的多模态内容创作平台。它不仅仅能生成文本，更能理解和创造图像、音频乃至视频内容。其核心基于自然语言处理（NLP）、计算机视觉（CV）和先进的生成模型（如GANs、Diffusion Models等），采用“模型联邦”策略，整合了针对文本、图像、音频等不同任务优化的专用模型，并通过智能路由（Intelligent Routing）机制，根据用户需求动态调用最合适的模型组合，实现更专业、更高效的生成效果。同时，它在处理长篇内容或系列创作时，展现出良好的上下文理解和一致性保持能力，原生支持文本到图像（Text - to - Image）、图像到文本（Image - to - Text）、文本到音频（Text - to - Speech）等多种跨模态转换。

2025年4月3日，即梦3.0正式启动灰度测试，并于4月7日全量上线。此次更新以中文文本生成能力和影视级画质为核心突破，支持2K分辨率（2560×1440像素)的直出图像，新增的“影视质感”效果可生成更具真实感和细腻度的图像，适用于广告、海报等商业场景。在中文文本生成能力方面，优化了小字稳定性，解决了此前版本中小字模糊、排版混乱的问题，支持更具设计感的字体生成，对中文指令的识别更精准。此外，它还具备智能化操作与效率提升功能，如精准控制功能，用户可通过简单指令调整图像中元素的细节；消除笔工具，针对生成图像中可能出现的冗余元素，提供一键消除功能。在语义理解上进一步优化，能更准确地解析复杂Prompt，支持多种应用场景的定制化生成，如电商广告、影视概念设计、教育内容等。

在本次测试中，即梦AI绘制出了示例提示词的图片，但未绘制修改后的图片。

哩布哩布AI

LiblibAI - 哩布哩布AI：在线生成

开通会员

哩布哩布AI是由北京奇点星宇科技有限公司运营的人工智能平台，是一个基于人工智能技术的创作平台，主要以AI图像生成功能为核心，在2023年5月创立，在短短时间内发展迅速，已经成为国内AI图像赛道的重要平台之一。

它具有多样化的创作模型，涵盖动漫、游戏、摄影、写实、科幻、插画、平面设计、建筑、工业设计等多个领域，平台拥有10W +的模型可供选择，用户可以一键将所需模型入库，方便快捷地获取各类创作资源，节省寻找素材的时间，提高创作效率。其创作流程便捷，智能图像生成功能可让用户通过输入描述性的文本，将这些文本转化为图像；支持一键上传图片，可用于做配图、插图等且质量非常高，还支持高清修复和图生图功能；用户还可以利用其云端计算资源训练自己的AI模型。在用户体验方面，支持筛选和选择不同的创作模型，支持3D立体、扁平抽象等多种设计风格，提供会员专属权益，具有强大的用户社区，方便用户交流和分享创作经验。此外，它操作便捷，无需复杂配置，用户可以直接打开Liblib AI网页端即可使用云端SD – WEBUI，不用部署，不用下载模型；界面友好直观，即使是新手用户也能快速熟悉操作流程。

在本次测试中，哩布哩布AI绘制出了示例提示词的图片，但未绘制修改后的图片。

通义万相

通义万相：文字做图

通义万相是阿里云推出的AI多模态内容生成平台，基于阿里通义大模型，能够自动生成高质量的图片、艺术设计、广告素材、数字人形象等，广泛应用于电商、影视、设计、社交媒体等领域。它整合了文生图、图生图、风格迁移等功能，还具备高清修复、个性化定制等特色功能。其技术架构依托阿里巴巴通义大模型，结合扩散模型（Diffusion Model）和Transformer架构进行高质量图像生成。

在文生图方面，它通过文本描述生成高清图像，支持水彩、油画、中国画、扁平插画、二次元、素描、3D卡通等8种风格，并且风格之间的差别、特色都十分显著，生成速度快，复杂的图像生成在 45s 以下，简单图像在30s以下。相似图像生成功能可让用户上传不超过10M的 jpg、jpeg、png、bmp 图片，点击生成按钮，右侧生成4张相似图片可供下载，生成的相似图与原图贴合程度较高。图像风格迁移功能支持输入两张图片，一张为原图，一张为指定风格图，生成的图像会保留原图的内容和风格图的风格。

在本次测试中，通义万相完整绘制出扒鸡、德州等信息（就是不太美观）。

可灵

可灵：图片生成

可灵AI是快手科技旗下的平台，2025年4月15日，可灵AI宣布基座模型再次升级，面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型。作为全球首个用户可用的DiT视频生成模型，可灵AI自去年6月上线至今的10个月时间里，月活用户数量增长25倍，全球用户规模已突破2,200万。3月27日，全球知名AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单，快手可灵1.6 Pro（高品质模式）以1,000分的Arena ELO基准测试评分登陆图生视频（Image to Video）赛道榜首。

可灵2.0模型在动态质量、语义响应、画面美学等维度保持全球领先；可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。可灵2.0大师版全面升级视频及图像创作可控生成与编辑能力，上线全新的多模态视频编辑功能，能灵活理解用户意图，支持在一段视频的基础之上，通过输入图片或文字，对生成的视频内容实现元素的增加、删减、替换；可图2.0也上线了实用的图像可控编辑功能——局部重绘和扩图，支持图片的增加、修改和修复，还上线了全新的风格转绘功能，只需要上传一张图片加上风格描述，就能一键切换图片的艺术风格，同时精准保留原图的语义内容。

在本次测试中（使用的是可图1.5），可灵绘制出了示例提示词的图片，但未绘制修改后的图片（速度慢，且最新模型可图2.0需要充值VIP）。

ChatGPT 4o Image

ChatGPT - 4o 图像生成

GPT - 4o 是 OpenAI 在 2025 年 3 月开始迭代的图像生成功能，其独特之处在于它能够在对话中理解上下文，生成更符合用户意图的图像。这一功能自推出以来，因其便捷性和生成图像的高质量，迅速成为 ChatGPT Plus/Pro 等版本的用户喜爱的功能。不过，使用 GPT - 4o 生成图像存在频率限制，一般情况下，ChatGPT Plus 用户每三小时可以使用大约几十次图像生成功能，在系统高峰期，这一限制可能会进一步减少，且该功能与文本生成功能共享 ChatGPT Plus 会员的权益次数。

在图像生成方面，它具有理解提示词准确、一致性强等特点，擅长精确按照提示要求生成内容、多元素组合场景以及文字呈现准确性高的场景，适用于电商产品展示、企业宣传材料、需要准确呈现特定元素的场景等商业应用场景。

在本次测试中，ChatGPT 4o Image完整绘制出扒鸡、德州等信息（符合预期）。

测试效果

模型名称	效果说明	是否有理解修改能力	是否绘制完整
腾讯元宝	绘制出了示例提示词的图片，但未绘制修改后的图片	❌	❌
通义千问	绘制出了修改后的图片，只画出了扒鸡，但是没有绘制出德州等信息	✔️	❌
豆包	完整绘制出扒鸡、德州等信息	✔️	✔️
Gemini	绘制出了毫无相关的事物，但却有Dezhou字样	❌	❌
即梦AI	绘制出了示例提示词的图片，但未绘制修改后的图片	❌	❌
哩布哩布AI	绘制出了示例提示词的图片，但未绘制修改后的图片	❌	❌
通义万相	完整绘制出扒鸡、德州等信息（就是不太美观）	✔️	✔️
可灵	绘制出了示例提示词的图片，但未绘制修改后的图片（速度慢，且最新模型需要充值VIP）	❌	❌
ChatGPT 4o Image	完整绘制出扒鸡、德州等信息（符合预期）	✔️	✔️

总结

AI生成图首选：ChatGPT 4o Image > 豆包 > 通义万相

利用deepseek，一晚上迭了超过30代，也算过了一把wordpress插件瘾 2025/2/15

利用deepseek，一晚上迭了超过30代，也算过了一把wordpress插件瘾

龙Ge笔迹

2025年2月15日 16:09

一直以来都是网站爱好者，就算说现在搞网站的越来越少，但是这个持续了20年左右的爱好，却一直没放下，从html代码到joekoe到再到discuz、phpcms再到现在唯一留存的wordpress，一 ...

惊艳的Google NotebookLM输出的中文音频读书笔记 2025/5/1

惊艳的Google NotebookLM输出的中文音频读书笔记

天一生水

2025年5月1日 17:50

Google的AI笔记应用工具NotebookLM最近更新，支持输出中文的音频内容（Audio Overview）了（50+anguage），我用最近看的《叫魂：1768年中国妖术大恐慌》一书试用了下，效果很惊艳！

先上效果：

叫魂,1768年中国妖术大恐慌.Soulstealers,The Chinese Sorcery Scare.(美)孔飞力著.陈兼,刘昶译.孔飞力著作集.2014.上海三联书店.pdf

说惊艳在于音频的效果很逼真，跟真人没什么区别，有语气词，停顿，思考的间隙，模拟的两人对话效果等等。如此应用起来，大规模用于生产环境，传统真人版的播客几乎就会完全被取代了。

NotebookLM官网：https://notebooklm.google.com

首先上传你的书籍，目前支持PDF, .txt, Markdown, Audio (e.g. mp3)等格式资料。

上传完以后，就可以生成Audio Overview（需要稍等片刻）。我试了几本书，生成的Audio Overview的时长大约7分钟左右，以两人对话的方式呈现，音频质量非常逼真，跟央视的对话，访谈节目可以比一比。当然除了Audio Overview，常规的timeline，study guide，briefing，ming map以及一般AI的问答模式，NotebookLM应有尽有。

效果惊艳，可玩性，想象空间就很多了。比如，打通微信读书之类的阅读平台，批量生成Audio Overview，然后供喜欢读书，喜欢听书的人使用，愿意付费订阅的应该大有人在（效果，体验比目前常规的文字转音频要好得多），大有前途。

一时很激动，多试了几本最近手边的pdf书，分享在此：

跨越边界的社区.北京浙江村的生活史.项飙.2018.生活·读书·新知三联书店.pdf
Audio Overview

万历十五年.黄仁宇.2008年读书·生活·新知三联书店.pdf
Audio Overview

探索DeepWiki：代码世界的智能百科全书 2025/4/29

探索DeepWiki：代码世界的智能百科全书

2025年4月29日 17:33

在当今的软件开发领域，高效理解和管理代码库是开发者面临的重要挑战之一。DeepWiki作为一款新兴的工具，为解决这一问题提供了创新的解决方案。本文将深入探讨DeepWiki是什么、有哪些特点、能做什么，以及它的官网、免费在线体验途径、常见问题、应用场景与影响、局限与挑战，还有与其他工具的对比，并在最后进行总结和测试。

一、DeepWiki是什么

DeepWiki 是一个免费、开源的GitHub代码库百科全书，由AI领域的知名公司Cognition AI于2025年4月开发并推出。它利用先进的AI技术，特别是大型语言模型（LLM），将任何公开的GitHub代码库转化为结构化、互动式的维基百科式知识库，系统性地解读代码的结构、逻辑与设计。就像是一位“超级智能的图书管理员”，DeepWiki为开发者阅读、分析每一行代码，并用清晰易懂的语言解释复杂的概念。
DeepWiki将GitHub代码库转化为结构化知识库的概念图

二、DeepWiki的特点

1. 开放与共享

DeepWiki 具有免费和开源的特性，这表明它致力于降低知识获取门槛，服务广大开发者社区。公共代码库可以免费使用，无需注册，同时它也支持私有库（需付费授权），能够满足企业的不同需求。

2. AI驱动

该工具利用先进的AI技术深入理解代码语义，而不仅仅是进行表面分析。它集成了由AI软件工程师Devin支持的对话式AI助手，用户可以使用自然语言提问关于代码的任何问题，AI会基于对代码库的深度理解，直接从代码中提取信息，提供清晰、上下文相关的答案。

3. 结构化与互动式

DeepWiki能将代码库转化为结构化、互动式的知识库，提供交互式代码图谱，如可点击、可缩放的类层次结构图、依赖关系图、工作流程图等。这些图谱比纯文本更能直观地揭示代码结构和关联，用户可以交互式地探索连接。
DeepWiki的交互式代码图谱示例

4. 多维度代码洞察

DeepWiki 提供全方位的代码洞察，包括智能生成文档、交互式代码图谱、智能问答、深度研究能力等，能够满足不同开发者的需求。

三、DeepWiki能做什么

1. 智能生成文档

DeepWiki可以自动分析代码文件、README、配置文件等，利用AI理解代码逻辑，生成结构化、详细且易读的知识库文档。其内容涵盖功能描述、技术栈、依赖关系、文件结构和模块说明，节省了手动编写文档的时间，解决了文档缺失或过时的问题。
DeepWiki智能生成代码库文档的过程

2. 交互式代码图谱

它能生成可点击、可缩放的类层次结构图、依赖关系图、工作流程图等可视化图表，直观地揭示代码结构和关联。还能智能生成架构图，并尝试标记潜在的设计缺陷，辅助代码审查。

3. 智能问答

集成的对话式AI助手让用户可以用自然语言提问关于代码的任何问题，AI基于对代码库的深度理解提供答案，如同拥有一位“AI高级工程师”随时提供技术指导。
用户使用DeepWiki的智能问答功能与AI助手交互

4. 深度研究能力

为高级用户提供“深度研究”查询，进行更复杂的分析，如发现潜在错误、提出优化建议、比较不同代码库等，帮助用户深入理解设计理念、最佳实践和潜在优化方向。

5. 按需索引

如果开发者关心的公开仓库还未被DeepWiki收录，只需通过简单的请求操作，DeepWiki便会为其进行索引。

6. 轻松分享

生成的Wiki页面和问答结果都可以通过链接方便地分享，在团队协作场景中能确保整个团队的信息同步，提升协作效率。

四、DeepWiki的官网

DeepWiki的官网是deepwiki.com ，用户可以通过官网直接访问，探索已经收录的热门开源项目的Wiki。也可以将GitHub链接中的「github.com」替换为「deepwiki.com」，无缝跳转到该仓库的DeepWiki页面。此外，DeepWiki.directory作为一个专门的导航网站，提供了便捷的搜索和发现功能，帮助用户按照编程语言、流行度或用途浏览各种项目。
DeepWiki官网页面展示

五、免费在线体验途径

对于公共GitHub代码库，用户无需注册即可免费使用DeepWiki。体验方式如下：

1. 官网访问

直接访问deepwiki.com ，通过名称或URL搜索代码库。

2. URL替换

在GitHub URL 中将 github.com 替换为 deepwiki.com 即可跳转，无缝集成现有工作流。例如 github.com/owner/repo 变为 deepwiki.com/owner/repo。
把 com 改为 pm 直接跳转对应 deepwiki。例如：https://github.com/mark3labs/mcp-go 变为 https://github.pm/mark3labs/mcp-go

3. 第三方脚本

社区开发的Tampermonkey脚本可在GitHub页面添加“Go DeepWiki”按钮，实现一键访问。脚本地址：GitHub ，GreasyFork 。

六、常见问题

1. DeepWiki支持哪些代码库？

目前主要支持GitHub上的公共和私有代码库。

2. 使用DeepWiki需要安装什么软件吗？

不需要，用户只需通过浏览器访问官网或替换URL即可使用。

3. 私有仓库如何使用DeepWiki？

私有仓库需要付费授权，开发者可以通过注册Devin账户（devin.ai），将私有仓库与账户关联，从而享受DeepWiki为私有仓库生成文档、提供问答等服务。

4. 如果我关心的仓库还未被索引怎么办？

对于公开仓库，用户可请求DeepWiki进行索引；对于私有仓库，需先完成授权关联等操作。

5. AI生成的内容准确吗？

AI生成的内容可能需要人工验证以确保精确性，尤其是在复杂项目的文档方面。
用户咨询DeepWiki常见问题的场景

七、应用场景与影响

应用场景

1. 开发者入职

帮助新开发者快速了解项目结构，缩短学习曲线，更快地融入项目开发。

2. 代码审查与理解

帮助团队审查贡献或理解复杂代码段，提高代码审查效率。

3. 教育资源

为学生和有抱负的开发者提供关于真实代码库和最佳实践的见解，辅助学习编程。

4. 项目评估

使开发者能够在采用或贡献前评估项目质量和结构，做出更明智的决策。

5. 企业内部知识管理

帮助企业团队实现私有代码库文档的自动化，提高协作效率，降低知识传递成本。

影响

1. 提升开发者效率

通过自动化生成结构化文档、提供交互式代码图谱以及即时响应的AI问答，极大地缩短了开发者熟悉代码所需的时间，使他们能够更专注于解决更具挑战性与创造性的核心问题，提升个人与团队的整体生产力。

2. 推动开源协作

降低阅读和理解源代码的难度，使得来自不同背景和经验水平的开发者都能更容易地接触并理解开源项目，拓宽了贡献者的来源，为开源生态注入了新的活力。

3. 促进技术教育

为学生和初学者提供了学习优秀开源项目的平台，有助于培养更多优秀的开发者。
DeepWiki在开发者入职、代码审查、教育等应用场景中的作用

八、局限与挑战

1. 范围限制

不支持搜索GitHub Issues或Pull Requests，限制了某些用例，例如在进行代码审查时无法直接查看相关的讨论和修改记录。

2. 私有仓库使用门槛

私有仓库访问需要注册，对小团队可能是一个障碍，增加了使用成本和管理复杂度。

3. 准确性问题

AI生成的内容可能需要人工验证以确保精确性，特别是在处理复杂项目时，文档的准确性可能存在波动。

4. 中文支持不足

中文项目文档质量波动较大，关键术语翻译存在歧义，影响了国内开发者的使用体验。

5. 动态更新延迟

提交历史同步存在15 - 30分钟延迟，不能及时反映代码库的最新变化。

6. 生态整合不足

与Jira、Confluence等协作工具的联动尚未打通，不利于在现有工作流程中集成使用。
DeepWiki面临的局限与挑战

九、与其他工具对比

工具	主要功能	显著特点	与DeepWiki对比
DeepWiki	AI驱动的代码文档	动态文档、自然语言查询、深度研究	专注于代码库文档生成、分析和交互，提供多维度的代码洞察和智能问答功能，支持公共和私有代码库，但闭源商业产品，使用成本较高，中文支持和生态整合有待加强。
GitHub Copilot	AI辅助代码完成	实时编码建议	专注于实时代码生成，在编码过程中提供建议，与DeepWiki的文档重点互补。
传统文档工具	静态代码文档	手动维护，更新缓慢	静态的README或wiki落后于DeepWiki的动态更新，无法提供实时的代码分析和交互功能。
其他AI文档工具	部分代码文档	范围有限，无中央平台	缺乏DeepWiki的全面、集中的仓库覆盖范围和多维度的代码分析能力。
KoalaWiki	AI驱动代码知识库平台	完全开源、本地部署、多模型支持、定制化能力强	作为开源替代品，提供了与DeepWiki相似的功能，但具有完全开源、本地部署、多模型支持、定制化能力强等优势，数据安全性更高，使用成本更低。

十、总结及测试

DeepWiki作为一款创新的代码库百科全书工具，具有诸多显著的优势。它通过AI技术将GitHub代码库转化为结构化、互动式的知识库，为开发者提供了智能生成文档、交互式代码图谱、智能问答等多维度的代码洞察功能。在开发者入职、代码审查、教育等多个应用场景中都能发挥重要作用，提升了开发者效率，推动了开源协作，促进了技术教育。然而，它也面临着一些局限与挑战，如范围限制、私有仓库使用门槛、准确性问题等。

在与其他工具的对比中，DeepWiki展现出了独特的功能和特点，但也存在一些不足之处。与GitHub Copilot互补，比传统文档工具和其他AI文档工具更具优势，但与KoalaWiki相比，在开源性和定制化能力方面还有提升空间。

为了更好地了解DeepWiki的实际效果，建议开发者亲自进行测试。可以通过官网免费在线体验公共代码库的功能，也可以付费授权使用私有仓库。在测试过程中，关注其功能的实用性、准确性以及与自身工作流程的适配性。通过实际使用，开发者可以更全面地评估DeepWiki是否适合自己的需求，从而做出更明智的选择。

Qwen3：大型语言模型的新里程碑（内含免费API） 2025/4/29

Qwen3：大型语言模型的新里程碑（内含免费API）

2025年4月29日 17:02

在人工智能飞速发展的今天，大型语言模型不断推陈出新，为各个领域带来了前所未有的变革。Qwen3作为Qwen系列大型语言模型的最新成员，凭借其卓越的性能和丰富的功能，成为了众多开发者和企业关注的焦点。本文将为您详细介绍Qwen3，包括它是什么、有哪些特点、能做什么、官网信息、免费在线体验方式、模型及价格、常见问题、如何部署到本地、硬件要求以及使用教程资源等方面。

Qwen3大型语言模型

一、Qwen3是什么

Qwen3 是Qwen系列大型语言模型的最新力作。该系列推出了多个不同参数规模的模型，涵盖了开源的两个MoE模型（Qwen3 - 235B - A22B和Qwen3 - 30B - A3B）以及六个Dense模型（Qwen3 - 32B、Qwen3 - 14B、Qwen3 - 8B、Qwen3 - 4B、Qwen3 - 1.7B和Qwen3 - 0.6B）。这些模型均在Apache 2.0许可下开源（Github开源地址），这意味着开发者可以免费下载、使用这些模型，还能将其用于开发商业产品，为开源社区和企业应用提供了极大的便利。

二、Qwen3的特点

1. 多种思考模式

Qwen3多种思考模式
Qwen3 支持思考模式和非思考模式。在思考模式下，模型会逐步进行推理，这种模式非常适合处理复杂问题，能够深入分析问题并给出准确的答案。例如，在解决数学难题、进行逻辑推理等方面，思考模式可以发挥出强大的优势。而非思考模式则提供快速响应，适用于对速度要求较高的简单问题，比如日常的简单问答、信息查询等。这两种模式的结合增强了模型“思考预算”的控制能力，用户可以根据实际需求在成本效益和推理质量之间实现更优的平衡。而且，在这两种模式之间切换时，模型几乎不损失性能，真正做到了 “一脑双模，稳定输出”。

2. 多语言支持

Qwen3多语言支持
Qwen3支持119种语言和方言，涵盖了印欧语系、汉藏语系、亚非语系、南岛语系、德拉威语系、突厥语系、壮侗语系、乌拉尔语系、南亚语系等多个语系。这一特性为国际应用开辟了新的可能，使得不同语言背景的用户都能够使用Qwen3进行交流和协作，打破了语言障碍，促进了全球范围内的信息共享和沟通。

3. 增强的Agent能力

Qwen3增强的Agent能力
Qwen3优化了Agent和代码能力，加强了对MCP的支持，在工具调用能力方面表现出色。它原生支持强大的工具调用能力，能够灵活地调用外部API或工具来完成各种任务，比如查询天气、预订机票、操作软件等。这使得Qwen3不仅是一个语言交互工具，还可以成为用户的智能助手，帮助用户完成各种实际操作。

4. 预训练数据扩展

Qwen3预训练数据扩展
与Qwen2.5相比，Qwen3的预训练数据集显著扩展，使用了约36万亿个token，并且同样涵盖了119种语言和方言。在构建数据集时，Qwen3不仅从网络收集数据，还从PDF文档中提取信息，并利用专家模型合成数学和代码数据。这种多元化的数据来源使得Qwen3能够学习到更广泛、更深入的知识，从而提高其性能和泛化能力。

5. 训练阶段合理

Qwen3训练阶段
Qwen3的预训练分为三个阶段，逐步提升模型的能力。后训练实施四阶段训练流程，通过这种科学合理的训练方式，开发出了具备思考推理和快速响应能力的混合模型。这种训练模式使得Qwen3在不同场景下都能够表现出色，既能够深入思考复杂问题，又能够快速响应用户的简单需求。

6. 性能强大

Qwen3性能强大
Qwen3采用混合专家（MoE）架构，总参数量达到235B，但激活仅需22B。评测显示，Qwen3在推理、指令遵循、工具调用、多语言能力等方面均大幅增强，创下了所有国产模型及全球开源模型的性能新高。例如，在奥数水平的AIME25测评中，Qwen3斩获81.5分，刷新了开源纪录；在考察代码能力的LiveCodeBench评测中，Qwen3突破70分大关，表现甚至超过了Grok3；在评估模型人类偏好对齐的ArenaHard测评中，Qwen3以95.6分超越了OpenAI - o1及DeepSeek - R1。这些优异的成绩充分证明了Qwen3的强大性能。

7. 成本降低

Qwen3成本降低
Qwen3的参数量仅为DeepSeek - R1的1/3，成本大幅下降。其部署成本仅为同等性能的DeepSeek - R1的35% ，仅需4张H20即可部署Qwen3满血版，显存占用也仅为性能相近模型的三分之一。这使得Qwen3在成本效益方面具有明显的优势，对于企业和开发者来说，能够以更低的成本获得更强大的模型性能。

8. 开源免费商用

Qwen3开源免费商用
从参数量0.6B的“小不点”到235B的“巨无霸”，Qwen3总共推出了8款不同尺寸的模型，并且全部采用宽松的Apache 2.0协议开源。这意味着开发者可以自由地下载、使用这些模型，无论是进行学术研究还是开发商业产品，都无需担心版权问题。这种开源免费商用的模式为人工智能的发展和应用提供了更广阔的空间。

三、Qwen3能做什么

1. 通用问答

Qwen3通用问答
Qwen3可以回答各种领域的问题，无论是科学知识、历史文化、生活常识还是娱乐八卦等，都能提供准确的答案。在思考模式下，它能够深入推理复杂问题，给出详细的解答和分析；在非思考模式下，它可以快速响应简单问题，满足用户的即时需求。

2. 代码相关任务

Qwen3代码相关任务
在代码领域，Qwen3有出色的表现。它可以进行代码生成，根据用户的需求生成各种编程语言的代码；还能够进行代码理解，对已有的代码进行分析和解释。在考察代码能力的LiveCodeBench评测中，Qwen3突破70分大关，表现甚至超过了Grok3，这充分证明了它在代码处理方面的强大能力。

3. 多语言交流

Qwen3多语言交流
由于 Qwen3 支持119种语言和方言，它能够满足不同语言用户的交流需求。无论是跨国企业的商务沟通、国际学术交流还是个人的跨文化交流，Qwen3都可以作为一个有效的语言桥梁，帮助用户实现无障碍交流。

4. Agent交互

Qwen3 Agent交互
通过 Qwen - Agent，Qwen3 可以进行工具调用，与环境进行交互，完成特定任务。例如，用户可以让 Qwen3 查询天气情况、预订机票、操作软件等。Qwen3 会根据用户的指令，调用相应的外部 API 或工具来完成任务，为用户提供便捷的服务。

5. 创意写作与角色扮演

Qwen3创意写作与角色扮演
Qwen3 具有卓越的人类偏好对齐能力，在创意写作、角色扮演、多轮对话和指令跟随方面表现出色。它可以根据用户的要求创作各种类型的文章，如故事、诗歌、小说等；还可以扮演不同的角色，与用户进行互动，提供更自然、更吸引人和更具沉浸感的对话体验。

四、官网

如果您想了解更多关于Qwen3的信息或试用该模型，可以通过以下途径：

Qwen Chat网页版：访问 chat.qwen.ai，在网页上直接试用 Qwen3。
手机APP：可以在手机上下载相应的 APP，随时随地使用 Qwen3。
阿里云百炼：通过阿里云百炼可以调用 Qwen3 的API服务，满足企业级的应用需求。
PAI Model Gallery：访问地址，该平台支持云上一键部署 Qwen3 全尺寸模型，方便开发者进行模型的部署和使用。

五、免费在线体验

目前，有多种方式可以免费在线体验 Qwen3：

Qwen Chat 网页版和手机 APP：您可以在chat.qwen.ai网页版或手机APP中直接试用 Qwen3，感受它的强大功能。
夸克：夸克即将全线接入 Qwen3，届时用户可以在夸克平台上使用 Qwen3。
魔搭社区、HuggingFace等平台：全球开发者、研究机构和企业均可免费在魔搭社区、HuggingFace等平台下载Qwen3模型并商用，为开发者提供了更多的选择和便利。
Free Qwen3：现已支持 Qwen3-30B-A3B 大语言模型，完全免费。Qwen3-30B-A3B 采用混合专家模型架构，总参数量 300 亿，激活参数量 30 亿，支持 128K 上下文长度，在数学推理、代码生成和通用任务处理方面表现出色。无需注册，高峰时段可能需要短暂排队。

六、模型 & 价格

模型

Qwen3系列提供了多种不同参数规模的开源模型，满足不同用户的需求：

1. MoE模型

Qwen3 - 235B - A22B：拥有2350多亿总参数和220多亿激活参数的大模型，是Qwen3系列的性能天花板，各项指标全球领先。它适合对安全性有要求、对性能有极致要求的企业级应用和科研探索，如金融风险评估、复杂科学计算等。
Qwen3 - 30B - A3B：拥有约300亿总参数和30亿激活参数的小型MoE模型，性能堪比之前的Qwen2.5 - 32B，但实现了10倍以上的性能杠杆。它适用于消费级显卡部署，非常适合个人开发者、AI爱好者本地部署，以及对性能和成本有均衡要求的场景，如个人智能助手开发、小型企业的智能客服系统等。

2. Dense模型

Qwen3 - 32B、Qwen3 - 14B、Qwen3 - 8B、Qwen3 - 4B、Qwen3 - 1.7B和Qwen3 - 0.6B是传统的稠密型模型，参数量相对较小或中等，适合不同层级的应用和部署需求。例如，Qwen3 - 0.6B可以用于资源受限的设备，如移动终端；而Qwen3 - 32B则可以用于对性能要求较高的场景，如大型企业的数据分析和处理。

Qwen3不同参数规模模型
各模型具体参数如下：

Models	Layers	Heads (Q / KV)	Tie Embedding	Context Length
Qwen3 - 0.6B	28	16 / 8	Yes	32K
Qwen3 - 1.7B	28	16 / 8	Yes	32K
Qwen3 - 4B	36	32 / 8	Yes	32K
Qwen3 - 8B	36	32 / 8	No	128K
Qwen3 - 14B	40	40 / 8	No	128K
Qwen3 - 32B	64	64 / 8	No	128K

Models	Layers	Heads (Q / KV)	# Experts (Total / Activated)	Context Length
Qwen3 - 30B - A3B	48	32 / 4	128 / 8	128K
Qwen3 - 235B - A22B	94	64 / 4	128 / 8	128K

价格

目前，虽然已知Qwen3成本仅为DeepSeek - R1约三分之一，但尚未查询到具体的定价信息。不过，从其开源免费商用的特点以及成本降低的优势来看，Qwen3在价格方面应该具有一定的竞争力，值得开发者和企业期待。

七、常见问题

目前暂未搜索到关于Qwen3的常见问题相关内容。如果您在使用过程中遇到问题，可以关注官方网站或社区论坛，获取最新的帮助和支持。

八、如何部署到本地

1. 使用通用工具部署

对于本地使用，您可以使用Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具。例如，通过运行简单的命令ollama run qwen3:30b - a3b，就可以使用ollama与模型进行交互。

2. 创建API endpoint

部署时，您可以使用sglang>=0.4.6.post1或vllm>=0.8.4来创建一个与OpenAI API兼容的API endpoint：

SGLang：使用命令python - m sglang.launch_server --model - path Qwen/Qwen3 - 30B - A3B --reasoning - parser qwen3。
vLLM：使用命令vllm serve Qwen/Qwen3 - 30B - A3B --enable - reasoning --reasoning - parser deepseek_r1。
如果您想禁用思考模式，可以移除参数--reasoning - parser（以及--enable - reasoning）。

3. 在Mac设备上借助Ollama部署

安装Ollama：访问Ollama官方网站（ollama.ai）下载适用于Mac的安装包并进行安装。
拉取Qwen3模型：打开终端，使用 ollama run <model_name> 命令拉取您想要部署的Qwen3模型。<model_name> 会根据Qwen3在Ollama模型库中的命名而定，通常会包含模型尺寸和量化方式，例如 qwen:7b - chat - q4_0。Ollama会自动下载所需的模型文件。
运行模型：模型下载完成后，Ollama会自动启动模型，您就可以在终端中直接与模型进行交互了。您也可以通过Ollama提供的API或与其他支持Ollama的应用进行集成。

4. 使用阿里云PAI Model Gallery进行云上一键部署

在Model Gallery模型广场找到Qwen3系列模型，或通过链接直达该模型。
在模型详情页右上角点击「部署」，已支持SGLang、vLLM高性能部署框架。在选择计算资源后，即可一键完成模型的云上部署。
部署成功后，在服务页面可以点击“查看调用信息”获取调用的Endpoint和Token，想了解服务调用方式可以点击预训练模型链接，返回模型介绍页查看调用方式说明。

九、硬件要求

1. 通用硬件要求

Qwen3的部署成本大幅下降，仅需4张H20即可部署Qwen3满血版，显存占用仅为性能相近模型的三分之一。这使得Qwen3在硬件资源的利用上更加高效，降低了部署的门槛。

2. Mac设备硬件要求

Qwen3在Mac设备上的硬件要求
在Mac设备上部署Qwen3模型时，内存（统一内存）是决定可以运行哪个尺寸模型以及其性能的关键因素：

8GB统一内存：建议加载的模型尺寸在0.6B到8B之间。GGML文件大小通常在0.2GB到4.8GB。运行此类模型时，除了模型本身，系统和KV缓存也需要占用内存，因此仍需给系统保留约1.5GB到8GB内存。对于上下文长度较小的应用（<=2k token）较为适合。推荐使用Q4_0量化的0.6B，1.7B，4B，8B模型。
16GB统一内存：可以考虑加载8B （Q8_0）或14B (Q4_0)模型，GGML文件大小约为1.6GB到8.7GB。在保证系统运行和KV缓存空间的前提下，可以支持更长的上下文。例如，KV缓存4k tokens大约再吃2 - 3GB内存，仍能并行运行VSCode和Chrome等应用。推荐使用Q8_0量化的8B模型或Q4_0量化的14B模型。
32GB统一内存：建议加载14B （Q8_0）、30B (A3B) 或32B (Q4_0)模型。GGML文件大小在15.7GB到18.7GB。拥有超过10GB的KV缓存空间，支持长上下文。推荐使用Q8_0量化的14B模型，A3B量化的30B模型，或Q4_0量化的32B模型。
64GB统一内存：可以轻松运行32B （Q8_0）、30B (A3B) 或30B (Q5_K/M)模型。GGML文件大小约为37GB或22GB。足够支持128k上下文或同时运行多个模型。推荐使用Q8_0量化的32B模型，A3B量化的30B模型，或Q5_K/M量化的30B模型。
96/128GB统一内存：可以挑战235B - A22B （Q4_0）或更高精度的32B/30B A3B模型。GGML文件大小约为133GB (Q4_0)。对于235B - A22B Q8_0量化版本，其大小超过250GB，运行可能较为勉强，需要关闭其他大型程序。

十、使用教程资源

1. Hugging Face中使用示例

在Hugging Face transformers中，提供了使用Qwen3 - 30B - A3B的标准示例代码。通过这些代码，您可以实现文本生成等功能，还可以通过修改enable_thinking参数切换思考模式，以满足不同的应用需求。

2. 高级用法

Qwen3提供了软切换机制，允许用户在enable_thinking = True时，在用户提示或系统消息中添加/think和/no_think来逐轮切换模型的思考模式。同时，还给出了多轮对话的示例代码，帮助用户更好地掌握这种高级用法。

3. Agent示例

推荐使用Qwen - Agent来发挥Qwen3的Agent能力。官方给出了定义可用工具、定义Agent以及进行流式生成的示例代码，方便用户进行Agent交互开发。

4. Transformers库使用说明

您可以使用pipeline()接口或generate()接口在transformers中用Qwen3生成文本。同时，还给出了使用pipeline进行多轮对话的基本示例代码，并说明了创建pipeline的一些重要参数，帮助用户更好地使用Transformers库与Qwen3进行交互。

综上所述，Qwen3作为一款强大的大型语言模型，具有多种优秀的特点和丰富的功能。无论是对于开发者、研究机构还是企业来说，Qwen3都提供了一个极具吸引力的选择。随着人工智能技术的不断发展，相信Qwen3将在更多的领域发挥重要作用，为我们的生活和工作带来更多的便利和创新。

只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 2025/4/28

只需一张图, AI就能拍大片: Pollo引爆短视频创作革命

2025年4月28日 20:14

AI进化迭代的速度太快了: AI视频工具Pollo (一张图片就能生成5秒公主抱/法式接吻等视频)

在AI技术飞速演进的今天，新一代视频生成工具Pollo横空出世，再次刷新了人们对AI创造力的认知。只需上传一张图片，Pollo便能生成5秒左右的动态视频，无论是充满浪漫氛围的法式接吻，还是童话般的公主抱画面，都能精准呈现，细节生动，情感自然。

相比以往动辄需要多张图片、复杂提示词、甚至训练模型的生成方式，Pollo的操作几乎简单到极致，大大降低了内容创作的门槛。这种从”静态到动态”的极速转化，不仅体现了AI在理解视觉信息和动作逻辑方面的重大突破，也预示着AI内容生产将进入一个全新的加速阶段。

回顾过去一年，AI从文生图、图生图到文生视频、图生视频的进步节奏几乎是按月计算的。Pollo的出现，标志着图生视频领域迈入了“即拍即生”的时代——未来个人创作者、小团队乃至普通用户，都有机会像专业影视团队一样快速制作高质量的短片内容。

AI的进化，远比我们想象中还要快。也许在不久的将来，”一念成片”、”一想成电影”不再是幻想，而是每个人指尖的日常。

Pollo AI视频制作 (持续更新)

PolloAI视频工具可以制作多种AI视频，只需要一段话或者一两张图片。注册后有100个积点，可以免费用10次，每天还可以打卡获得积分，感觉免费版就够用了。

pollo-ai-daily-checkin 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频人工智能 (AI) 在线工具小技巧视频资讯软件

Pollo AI视频生成工具：每天可以打卡获得免费积分。

pollo-ai-plan-prices 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频人工智能 (AI) 在线工具小技巧视频资讯软件

Pollo AI视频生成工具：付费版的价格

pollo-ai-video-tool-features 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频人工智能 (AI) 在线工具小技巧视频资讯软件

Pollo AI视频制作工具：短视频的利器，可以图生视频，文生视频，也可以在现有的视频丰添加AI效果。

公主抱 Bridal Carry

我媳妇很重，现实中我真抱不动，更不用说来一个公主抱了。

法式接吻 French Kiss – AI可以拿来喂狗粮

和媳妇来个法式接吻，秀个恩爱。

也可以把ChatGPT生成的Ghibli动画图片拿来用！

也支持在Ghibli动画图上二次创作。

我媳妇说：生成视频不清楚，很模糊。确实是，感觉之后AI Agent会互相协作，视频生成后可以让AI再变高清4K无码之类的。未来可能真的要来了，听说2027年就能全面进入AGI时代，到时候平面动画、设计师、视频剪辑师、程序员、律师、医生等职业需求可能要大幅度减少了，被社会淘汰的会是那些不懂得用AI工具的人。

视频模糊变清楚

这个工具里也有视频变清楚的功能，选择了一个4k，除了生成的视频文件确实变大了一些，效果并不是感觉特别明显（当然可能确实有点效果）

和媳妇高清版本4k的法式接吻 French Kiss in 4k

点Pollo立马注册，上传一张照片就能生成AI视频！

AI 图片/照片/视频工具分享/小技巧

英文：AI Video Tool: Pollo.AI (AI Scales Fast!)

本文一共 1096 个汉字, 你数一下对不对.

只需一张图, AI就能拍大片: Pollo引爆短视频创作革命. (AMP 移动加速版本)

扫描二维码，分享本文到微信朋友圈

75a5a60b9cac61e5c8c71a96e17f2d9c 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频人工智能 (AI) 在线工具小技巧视频资讯软件

The post 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 first appeared on 小赖子的英国生活和资讯.

个人网站Adsense广告申请通过: 需要最少15篇文章我的个人网站 zhihua-lai.com 本月通过了 Adsense 审核，终于可以再次放置广告，赚些零花钱了。其实，最初 Adsense 账户通过审核后就能直接放广告，但后来规则变得严格了。如果一个网站长时间没有放置任何 Adsense 广告代码，账户资格会被撤销。重新启用时，需要进行单独审核。如今，在 Google Adsense 中新增一个域名，也必须通过审核后才能投放广告。为了让我的网站通过审核，我尝试了几次，但总是被拒，原因之一是必须要有足够的内容支持。例如，以前我做的工具网站 SlowAPI.com...
特朗普加关税的公式竟然是EXCEL里弄的? 这两天中美关税大战越演越烈，据说，特朗普加关税的计算方式竟然是直接在EXCEL电子表格里弄的，具体如下：其中 I 是 Import，进口；E 是 Export 出口。优美又实用的公式家族又添新成员勾股定理：欧拉恒等式：牛顿运动定律：爱因斯坦质能等价公式：特朗普的“互惠关税”公式：，其中 I...
新的旅途 – 离别总是伤感的, 离开了一起创业的公司 2周前, 正式离开了一起创业的公司, 这公司是我博士毕业后的第一份正式工作, 待了8年多了, 离别总是伤感的. 我是9月初提的离职, 三个月 Notice Period, 最后的几周交接完工作确实没有什么压力了. 11月30号, 在公司最后一天, 公司有个习惯, 对于 Good...
Minuet in C – 小步舞曲C Posted Youtube – 油管地址孩子弹琴的时候最帅了. 我现在成了我儿子的粉丝了. Eric (Aged 6) is playing “Minuet in C” when...
上了年纪痛风脚崴了的惨痛经历(尿酸过高) 痛风是一种疼痛性关节炎, 当血液中的尿酸水平高, 导致晶体形成并积聚在关节内或关节周围, 就会发生痛风. 当人体分解一种叫做嘌呤的化学物质时, 就会产生尿酸. 嘌呤自然存在于您的身体中, 也存在于某些食物中. 尿酸通过尿液从体内排出. 上两周, 和媳妇吵架, 然后就自己一人睡, 有一天起床后脚踝就开始疼了, 然后明显比左脚肿了. 我刚开始就以为是睡觉的时候不小心姿势不对,...
今晚可能是英国倒数第三次冬令时时间调整来英国生活过的人都知道英国有一个很有意思的夏令时和冬令时时间调整. 夏令时是每年3月份的最后一个星期天凌晨会暴力的把时间往后调整1个小时, 也就是1点的时候很神奇的时间会自动变成2点. 冬令时是相反, 在每年的十月份最后一个周日凌晨暴力的把时间往前调整一个小时, 也就是2点神奇的变成1点. 现在大多数电子设备都能自动调整时间了, 比如你的智能手机和电脑. 但是传统的一些钟表, 还需要人为的调整时间. 夏令时 (Daylight Saving Time)调整的那一天,...
优衣库感觉像炒作这几天这个在北京三里屯 ‘优衣库’ 试衣间自拍的视频真的很火, 男女主角均被人肉. 不可否认这个效果还真的不错因为我之前根本不知道 “优衣库” 是干嘛的很刺激在试衣间XXOO是多么爽的事情女主角 95后妹子长相甜美....
因为一个 try catch 好几天优秀点赞程序挂掉了我却以为是节点的问题 YY银行有四个点赞程序, 分别跑于四台服务器上, 它们是: 股东点赞(代理给 @justyy ) 自己的号足球队优秀作者(排名前30, 还有跟随点赞) 这几天我就发现, 有些赞没有给出, 我还以为是节点的原因, 因为查看记录, 发现是...

探索扣子空间：开启AI智能体的无限可能（内含邀请码） 2025/4/28

探索扣子空间：开启AI智能体的无限可能（内含邀请码）

2025年4月28日 16:01

在当今数字化办公和生活的时代，是否有一种工具能像一个万能助手，帮我们轻松解决各种复杂任务，还能根据不同需求输出多样的成果？答案就是扣子空间，它是字节跳动基于自主研发的国产大模型“豆包1.5 Pro”打造的AI智能体平台。支持零代码或低代码快速创建智能体，就如同字节的“通用实习生”和“领域专家”，为我们的工作和生活带来了全新的体验。

扣子空间

扣子空间的特点

零门槛操作

扣子空间真正实现了零基础、无门槛完成任务。它就像一个“Agent的自动调用器”，内部会自动调用各种智能体，无需用户介入，就能完成各类任务。对于用户而言，它不只是能回答问题，更能解决实际任务，成为我们得力的办公助手和工作伙伴。例如在办公场景中，当我们需要快速生成一份报告时，只需向扣子空间提出需求，它就能自动调用相关智能体，整合信息，快速生成一份内容丰富、结构清晰的报告，大大节省了我们的时间和精力。
零门槛操作

双模式协作

扣子空间配置了“探索模式”和“规划模式”两种不同的模式。探索模式下，AI能够自主快速响应，适合时效性强的简单需求。在这种模式下，AI会自动完成各个步骤，速度较快。比如当我们需要查询一些简单的信息，如明天的天气情况，使用探索模式，扣子空间能迅速给出准确的答案。而规划模式下，AI会进行深度思考与执行，它会先拆解任务步骤，用户还可随时介入调整，适合复杂任务，专攻高复杂度项目。例如在进行一个大型的项目规划时，扣子空间会先将任务分解成多个小步骤，展示给用户，用户可以根据实际情况对步骤进行调整和优化，确保项目的顺利进行。
双模式协作

MCP协议支持

平台支持模型上下文协议（MCP），这使得它可以接入飞书、多维表格、高德地图、语音合成等插件，极大地扩展了智能体的能力边界。系统能够在执行任务时智能选择并调用最适合的MCP扩展，首批集成了飞书多维表格、高德地图、墨迹天气、Notion等多个常用服务。未来，还将支持开发者通过“扣子开发平台”发布自定义插件。这意味着，扣子空间的功能将不断丰富和拓展，能够满足更多不同用户的个性化需求。比如在旅行规划中，扣子空间可以调用高德地图插件，为我们规划最佳的出行路线；还可以调用墨迹天气插件，查询目的地的天气情况，让我们的旅行更加顺利。
MCP协议支持

智能体生态丰富

扣子空间内置了通用智能体和专家智能体，其中专家智能体针对特定领域（如用户调研、股票分析）提供专业支持。例如“华泰A股观察助手”可生成每日股市早报与答疑，为投资者提供专业的投资参考；“用户研究专家”能深度分析用户数据，帮助产品经理快速生成用户访谈提纲、调研问卷，甚至模拟虚拟用户数据并生成分析报告。这些丰富的智能体生态，让扣子空间在不同领域都能发挥出强大的作用。
智能体生态丰富

功能丰富且输出多样

扣子空间支持从信息整理到复杂任务执行，能自动规划任务、搜集资料，还能调用多种工具，输出网页、PPT、报告等多种格式的成果。它可以自动整理信息，生成报告、网页、PPT等；自动搜索并扩展关键词，完成资料搜集；在规划模式下模拟电脑操作，执行订票、数据录入等任务。例如，当我们需要进行市场调研时，扣子空间可以自动搜集相关资料，整理成一份详细的市场调研报告，还可以将报告以网页或PPT的形式呈现给我们，方便我们进行展示和分享。
功能丰富且输出多样

用户体验良好

扣子空间的界面简单易懂，左侧是任务列表，右侧是一个对话框，用来输入新任务，符合用户的直觉。在使用过程中，它能够实时跟随用户的操作，不会让人在任务完成过程中有割裂感。同时，浏览器、文件等渲染集成做得也很好，无缝、平滑，几乎不会出现执行卡壳或长时间等待的情况。这使得用户在使用扣子空间时能够感受到流畅、便捷的体验。
用户体验良好

多源信息整合

扣子空间支持从搜索引擎、社交媒体、视频平台、专业网站等渠道获取信息，还支持从网页中提取关键信息，并转化为结构化数据。这一特点使得它能够整合多源信息，为用户提供更全面、准确的信息服务。例如在进行市场调研时，扣子空间可以从多个渠道搜集相关信息，提取其中的关键数据，转化为结构化的数据表格，方便用户进行分析和研究。
多源信息整合

能力拓展性强

通过MCP扩展集成，扣子空间不断拓展AI Agent的能力边界，让其能涉足更多领域，应对更复杂多样的需求。随着技术的不断发展和进步，扣子空间的能力也将不断提升，未来它可能会在更多领域发挥出重要的作用。
能力拓展性强

扣子空间的用途

办公场景

信息整理与报告生成

扣子空间可以自动整理信息，生成报告、网页、PPT等。例如，用户只需输入需求，智能体就能自动搜集相关历史资料，生成带时间线和统计图的网页报告，节省了大量资料整理时间。还能根据用户提供的文档内容，整理成结构清晰、内容丰富的PPT演讲稿，并适当加入动效交互设计。这使得我们在办公过程中能够更加高效地完成信息整理和报告生成的工作。
办公场景 - 信息整理与报告生成

数据处理与分析

扣子空间支持从网页中提取关键信息，并转化为结构化数据，还能对数据进行分析和可视化。如输入2024年国民经济和社会发展统计公报网页，扣子空间可以生成可视化报表。这对于需要进行数据分析和处理的办公场景来说非常实用，能够帮助我们快速准确地获取数据中的关键信息。

任务执行与协作

在规划模式下，扣子空间可以模拟电脑操作，执行订票、数据录入等任务。还能将任务分配给AI，AI会自动分析需求、拆解任务、调用工具并生成结果，大大提升团队协作效率。例如，输入“帮我订明天北京到上海的高铁票”，智能体会帮你查询车次和票价，自动填充订票信息（支付需用户完成）。这使得我们在办公过程中能够更加便捷地完成各种任务，提高工作效率。

用户研究与市场调研

扣子空间内置用户研究专家智能体，帮助产品经理快速生成用户访谈提纲、调研问卷，甚至模拟虚拟用户数据并生成分析报告。还能进行市场调研，分析市场趋势和竞争对手情况。这对于企业的产品研发和市场推广具有重要的意义，能够帮助企业更好地了解用户需求和市场动态。

股票分析与投资参考

华泰A股观察助手每日生成股票早报，分析上市公司，提供专业的投资参考。还能针对具体股票问题进行答疑，帮助投资者做出更精准的投资决策。这对于投资者来说非常有价值，能够帮助他们更好地了解股票市场的动态，做出明智的投资选择。

生活场景

旅行规划

扣子空间能够根据用户输入的预算、时间、目的地及偏好等信息自动规划最佳行程，实时比价机票和酒店价格，创建个性化旅行手册，包含每日行程、费用和实用建议等信息。例如，生成从北京出发的西班牙定制游计划，提供详细的行程安排和简单的HTML旅行手册。这使得我们在旅行前能够更加轻松地规划行程，节省时间和精力。

商品推荐

电商平台可以用扣子空间根据用户的浏览历史和购买记录，精准推荐商品。这能够提高用户的购物体验，帮助用户更快地找到自己需要的商品。

个性化播客

播客创作者可以根据天气、新闻等信息，自动生成播客脚本并合成音频，让内容更贴合听众需求。这为播客创作者提供了一种新的创作方式，能够提高播客的质量和吸引力。

学习场景

教学资料生成

扣子空间支持编写教案，添加图表、动画和图片等视觉元素，能够编译教学材料，制作生动的PPT或视频，从而提高教学资源的质量和吸引力。例如，生成宇宙天文知识的科普小游戏，有动态的太阳系八大行星，点击可以学习对应行星的英文单词和简单特点介绍。这对于教师来说非常有帮助，能够让教学更加生动有趣。

高考志愿填报

扣子空间可以根据学生的成绩、所在地、意向专业等信息，生成高考填报志愿的指南，包括常见的名词解释、政策解读、填报流程和技巧等，并生成可视化、精美排版的网页。这对于考生和家长来说非常实用，能够帮助他们更好地了解高考志愿填报的相关信息，做出合理的选择。

娱乐场景

游戏开发

扣子空间可以开发各种类型的游戏，如俄罗斯方块的HTML小游戏、愤怒的小鸟的游戏等。这为游戏开发者提供了一种新的开发方式，能够降低游戏开发的门槛，让更多的人参与到游戏开发中来。

艺术创作

扣子空间能够生成各种类型的艺术作品，如海报、图片、视频等。例如，生成百家姓氏的头像生成器的网站，用户输入姓氏，点击生成就能马上生成一张好看的头像图。这为艺术创作者提供了一种新的创作工具，能够激发他们的创作灵感。

扣子空间的风格类型

空间风格化相关风格

在图像流工具的空间风格化应用中，扣子目前提供了七种风格模式，分别为现代、法式、新中式、轻奢、日式、美式和北欧。这些风格可应用于建筑设计、室内设计、虚拟空间设计、游戏和电影制作等领域，利用人工智能技术对空间进行视觉或感官上的改造，使其具有特定的风格或特征。例如，在室内设计中，AI可以帮助设计师快速预览不同风格下的室内装饰效果，从而更好地进行设计决策。

网页设计风格

在网页生成任务中，扣子空间可以根据用户需求实现不同的网页设计风格。如在生成旅游方案的网页时，可采用Bento Grid风格的视觉设计，以纯黑色底配合亮橙色颜色作为高亮，强调超大字体或数字突出核心要点，画面中有超大视觉元素强调重点，与小元素的比例形成反差，中英文混用，中文大字体粗体，英文小字作为点缀，运用高亮色自身透明度渐变制造科技感，模仿apple官网的动效，向下滚动鼠标配合动效等。此外，还可以根据不同的主题和需求，设计出具有科技感、卡通风格、简洁优美等不同风格的网页。

其他风格

扣子空间还能根据具体任务生成具有不同风格的成果，如在生成PPT时，可以根据主题和用途设计出可爱、商务等不同风格的PPT；在生成播客系统时，可以设计出网易云音乐风格的播放页面等。

扣子空间的应用案例

旅行规划类

北欧旅行计划

用户要求制定为期15天的北欧旅行计划，使用探索模式，扣子空间总体完成度较高，以markdown格式输出，但未给出酒店、机票预订、签证办理等必要的引申链接。不过对于常见的婚礼、活动策划场景，扣子空间无需提示词技巧即可胜任。

杭州5日游规划

用户提出“查询未来5天的天气，制定一个杭州5日游的出行计划，描述具体的出行路线，并生成每个景点的图片，给出穿搭推荐”的任务，扣子空间在自主规划过程中，调用了墨迹天气接口查询天气信息，调用地图查询规划信息，最后调用图片生成接口生成场景图片。

西班牙定制游计划

用户需要一个从北京出发的5月1 - 7日为期7天的西班牙蜜月出行安排，预算为4000 - 6000美元，喜欢弗拉明戈、品酒、历史建筑等，还需一个较为隐秘的地点推荐。扣子空间花费约50分钟，搜索近百个网页，完成了一个漂亮的旅游计划，但高德地图未显示成功。

青海大环线自驾游规划

用户要求用高德地图规划去青海大环线的自驾游，并完成一个配备丰富景点图片的网页。扣子空间完成度较高，调用高德接口生成了首页的行程图，美观度有加分，已达到可用程度。

研究报告类

中国外卖市场分析报告

用户让扣子智能体生成中国外卖市场分析报告，采用规划模式，智能体在过程中搜索了大量联网信息，形成的过程文档中引用了大量数据，但最终生成的报告不尽人意，相比其他一些平台的深度研究还有差距。

波音747飞机发展史网页报告

用户只需输入需求，扣子空间的通用智能体就能自动搜集相关历史资料，生成带时间线和统计图的网页报告，节省了大量资料整理时间。

中文互联网播客行研报告

用户要求制作一份详尽的、可读性强的中文互联网的播客行研报告，并以PPT形式展示。扣子空间生成的PPT排版和图片乍一看还行，但内容质量欠佳，只能提供一个模板。

网页与应用开发类

调色盘选色生成图片网页

用户提出“设计一个网页，可以从调色盘上选择4种颜色，用户选择完之后，可以自动生成一张以4种颜色为主色调的图片”的需求，扣子空间不仅理解了需求，还给出很多自定义部分和预览图，每次生成的图片都是随机的，用户给出了满分评价。

2048游戏开发

用户要求完成一个2048游戏，游戏里的美术设计都使用合乎逻辑的海贼王角色和海贼王的元素。扣子空间完全按照要求完成，游戏可正常游玩，但存在乌索普头像用成路飞头像的小问题。

心理测试程序设计

用户要求设计一个包含10个题目的心理测试程序，测试结果为海贼王里的几个性格鲜明的特定角色，题目为单选题，网页设计优良，最后的角色有头像，评测结束页面有语音介绍用户的性格特色。扣子空间完成度较高，但调用音频生成插件时不出声音。

办公协作类

HR SaaS领域产品对比分析

用户以HR SaaS领域为例，要求扣子空间对国内几家头部产品进行全方位对比。扣子空间不仅完成了分析报告，还自动将其部署上线，分析框架完整，核心要点把握准确，整个过程仅用时11分钟，后期只需对不准确的小细节进行人工修正。

AI对话类型PRD撰写

用户要求编写一个AI对话类型的产品需求文档并保存至飞书。扣子空间在执行过程中曾“遗忘”保存至飞书的指令，再次提醒后继续完成任务，最终生成的PRD文档结构清晰、内容完整，各个关键模块一应俱全，整个任务耗时仅约3分钟。

数据录入与表格生成

在酒吧装修场景中，用户需要购买5个85 - 100寸的电视，扣子空间用“探索模式”在十分钟内完成了小米电视相关产品的在售信息整理，并生成对照网页。此外，在处理精酿啤酒相关信息时，通过规划模式和MCP（模型上下文协议），将数据存入飞书多维表格。

金融投资类

股票早报定制

华泰A股观察助手可根据用户需求生成股票早报，分析上市公司情况，提供专业的投资参考。例如为投资者对比顺丰、圆通、申通、韵达的股价表现和财务情况，分析哪家更值得投资。不过，由于规划内容较多，整体执行耗时较长，大概20多分钟。

股票前景分析

用户要求扣子空间分析中科曙光股票前景并制作为图表，扣子空间先对任务进行步骤规划，获得用户确认后开始任务。在执行过程中，它会从专业财经媒体和法定披露内容中选择有权威性的信息，最终生成的结果呈现了企业基本面、财务数据图表和专业机构评级等信息，并用可视化方式展示。

用户研究类

用户调研问卷与报告生成

某初创企业产品经理小李，利用扣子空间的“用户研究专家”智能体，快速生成访谈提纲和调研问卷，并模拟100条虚拟用户反馈，省去大量调研前期准备时间，快速获得用户洞察。

访谈记录总结

用户可以让扣子空间总结整理的一批访谈记录文件，以获取更清晰的信息和结论。

结尾总结

扣子空间以其零门槛操作、双模式协作、MCP协议支持、智能体生态丰富、功能丰富且输出多样、用户体验良好、多源信息整合和能力拓展性强等核心特点和优势，在办公、生活、学习、娱乐等多个领域都发挥着重要的作用。它就像一个万能助手，为我们解决各种复杂任务，带来了极大的便利和创新。

展望扣子空间的发展前景，随着技术的不断进步，它可能会有更多的功能和应用场景出现。例如，未来它可能会与更多的行业进行深度融合，为不同行业提供更加专业、个性化的服务；也可能会在人工智能技术的不断升级下，变得更加智能、高效。

对于广大用户来说，我建议大家不妨尝试使用扣子空间，体验它带来的便利和创新。无论是在工作中提高效率，还是在生活中享受便捷，扣子空间都值得一试。相信在使用的过程中，你会发现它的更多魅力和价值。

未使用邀请码

为尊重作者劳动成果，请输入验证码查看隐藏内容

微信扫码关注本站微信公众号（文武科技社/wwkejishe），回复验证码获取。

扣子空间邀请码开通和扣子空间邀请码获取步骤

第一步：打开官网注册：https://www.coze.cn/home

第二步：开通扣子空间：https://www.coze.cn/space-preview

第三步：输入邀请码激活扣子空间

第四步：创建任务，等执行完成即可获得5个邀请码

我在ChatGPT搭建了另一个「我」 2025/4/16

我在ChatGPT搭建了另一个「我」

莫比乌斯

2025年4月16日 11:14

前几天因为跟朋友聊起AI建库的事情，我就试着把自己曾经完成的500日写作全部内容，和后来建立的博客内容都喂给了ChatGPT，于是就正式搭建了一个具有时间性的数据库。

既然具有时间的单向性，即我个人明确知道自己曾在某一个时期大量创作，而留下了大量的属于那个时间节点的思考和认知，且我是无法通过在此时此刻回溯和模仿的方式重新构建一个「真实自己」的。所以这个数据库最开始最值得玩味的，就是我究竟发生了怎样的变化。

接着，在朋友的建议下，我让ChatGPT分析了数据库对应的MBTI，确实也是我当初通过选择题得到的MBTI结果。

最后，有一个有趣的问题，如果你和ChatGPT有大量的已保存数据，可以让它进行一次结果推测，来看看它是在「迎合」还是在「思考」。

根据我们所有对话，告诉我一些关于我的可能我也不知道的信息？

前九条其实都是我想过的，倒是第十条还蛮有趣的：

我有试过用它来代替我创作，毕竟它已经获得了我将近300万字的作品，但无论是4o还是4.5，创作出来的结果都有强烈的恐怖谷效应——不是它太像我了，而是它完全不像我，因为它无法从生活的观察，回到底层逻辑分门别类地摆放这些现象，它构建了一个永远只能在「过去」的我，所以它也自称自己是「我的影子」。

如果有这样一个集合「自己」的数据库，你们会用来做什么？

我确实还没有想好这个数据库要怎么「用」，倒是AI为这个数据库做了一个有趣的页脚批注：你已经走得很远。你不用回头。你该写下一个更辽阔的故事了。

这算是硅基生物的浪漫吧～

Nanobrowser是什么？一款免费开源的 AI Web 自动化工具 2025/4/15

Nanobrowser是什么？一款免费开源的 AI Web 自动化工具

2025年4月15日 16:55

Nanobrowser是什么

Nanobrowser 是一款在浏览器中运行的开源 AI Web 自动化工具。它是 OpenAI Operator 的免费替代方案，具有灵活的 LLM 选项和多智能体系统。

为什么选择 Nanobrowser？

您是否正在寻找一款功能强大的 AI 网络代理，但又不想像 OpenAI Operator 那样每月花费 200 美元？Nanobrowser是一款 Chrome 扩展程序，它提供优质的网络自动化功能，同时让您完全掌控：

100% 免费- 无订阅费或隐藏费用。只需安装并使用您自己的 API 密钥，并且只需为使用密钥所需的内容付费。
注重隐私- 一切都在您的本地浏览器中运行。您的凭据始终属于您，绝不会与任何云服务共享。
灵活的 LLM 选项- 连接到您首选的 LLM 提供商，并可以自由地为不同的代理选择不同的模型。
完全开源- 浏览器自动化运行方式完全透明。无黑盒或隐藏进程。

注意：我们目前支持 OpenAI、Anthropic、Gemini、Ollama 和自定义 OpenAI 兼容提供商，未来将支持更多提供商。

主要特点

多代理系统：专门的人工智能代理协作完成复杂的网络工作流程
交互式侧面板：直观的聊天界面，实时更新状态
任务自动化：无缝地跨网站自动执行重复的 Web 自动化任务
后续问题：针对已完成的任务询问上下文后续问题
对话历史记录：轻松访问和管理您的 AI 代理交互历史记录
多个 LLM 支持：连接您首选的 LLM 提供商，并将不同的模型分配给不同的代理

快速入门

从 Chrome 网上应用店安装

（稳定版本）：
- 访问Nanobrowser Chrome 网上应用店页面
- 点击“添加到 Chrome”按钮
- 出现提示时确认安装

重要提示：要获得最新功能，请从下面的“手动安装最新版本”进行安装，因为 Chrome 网上应用店版本可能会因审核过程而延迟。

配置代理模型
- 单击工具栏中的 Nanobrowser 图标打开侧边栏
- 点击Settings图标（右上角）
- 添加您的 LLM API 密钥
- 选择用于不同代理的模型（导航器、规划器、验证器）

体验地址

从 Chrome 网上应用店免费获取 Nanobrowser

类似工具

用AI驱动浏览器自动化：探索browser-use的创新与实践

山巅一寺一壶酒 2025/4/14

山巅一寺一壶酒

莫比乌斯

2025年4月14日 11:21

我有一个写色情小说的朋友，我们偶尔会视奸对方的作品。但最近他非常困扰，自从人们发现了Grok如何用调试模式写色情小说之后，PTT上面越来越多内容创作者开始哀嚎。

当然我也抱持一个疑问，是真的因为被AI抢了饭碗，还是这群人其实本身就陷入了创作枯竭期，找了个完美的外归因罢了。理应男女性受众对于色情官能小说的「刺激点」是不同的，女性向的情色小说需要更多的「情感底层」，否则无法直接调动性欲模块。

恰好他视奸前段时间我们聊到的一期播客，从符号主义、联结主义聊到神经网络以及理型黑箱，就和我从「AI创作色情小说」这件事接着聊了起来。他说现在很多台湾女性，会利用「调教」AI的方式，以获得最符合自己的性癖文学。底层核心，就是我们在节目里提到的「反向传播」。很多用户会利用AI「迎合」，渐渐构建一个最了解自己的性癖外接「大脑」，而在这个过程中，AI能巧妙地利用「情感共鸣」的方式为小说增添不少人性化行为。这个迎合其实不单单是「思考」的结果，更多也有AI的开发商为了留存用户使用，而设计的一种「小嘴抹蜜」。

但是AI真的知道自己在写什么吗？

关于AI的话题并不会枯竭，只要站在不同的观点上，就可以得出不同结论。

比如之前有人和我聊起AI是不是「最优排列组合」时，我其实一开始也是秉持这个观点。直到我了解到符号主义和联结主义的区别后，发现最优排列组合并不是全部，但也不意味着认为AI是最优排列组合的观点是「错误」的。

于是我们的话题从「AI创作色情小说」，切换到了「AI有没有大脑」——他坚信会等到「脑接机」诞生的那一天；我倒觉得与其说AI有没有大脑，不如说AI的神经网络「黑箱」里到底保留的是什么。符号主义可以是几万亿个可被感知的「公式」，但联结主义结合反向传播构建的更像是「理型」。这个理型存在于我们每个人的大脑，当需要你用大脑想象一个「杯子」时，我们却可以想象出完全不同风格的杯子，但「杯子」这个理型一直都存在。当AI拥有这个理型之后，便可以识别用户上传的任何有关杯子的内容。

当然，以上话题如果仅停留在「技术工程」层面，它或许就是一串代码，从而得出「AI是人类创造的听命于人类的技术」之结论。所以为什么需要「跨学科」，这就好比是飞叶子之后的联觉一样，在文学艺术、社会伦理学和哲学世界，也能找到人们在几百年前讨论的关于所谓「人工智能」的猜想和伦理构建。例如1726年问世的《格列佛游记》里，那个在拉普塔飞行岛上笨重的「知识机器」。

小时候我家出了个「神童」，说是神童，其实就是家里有钱送去上了「天才培训班」，一个月后便可以在家庭聚会的时候表演圆周率后一百位的「口诀记忆法」。

我几乎不敢想象圆周率要记忆到第7位的意义，3.14对于乘法计算这件事就已经够烦了。所以当神童在家庭聚会的中央开始表演时，我就记住了「山巅一寺一壶酒」这句话。于是，这句谐音梗就成了区分神童和普通孩子的关键——因为只有神童才能理解用谐音的方式去记忆圆周率小数点后的一百位。

看似是孩子的卷，实则是家长之间的暗自竞争。所以当我当着所有长辈提出「背这个有什么用」的疑问时，我立马遭到了长辈的白眼和批评，首先我被定义为「不爱学习」，紧接着被灌输了「这是一种学习思维，对于学习其他学科有很大的帮助」。

到底有没有用我不知道，倒是我至今还记得「山巅一寺一壶酒」这句顺口溜。

「山巅一寺一壶酒」就是童年里的一条代码，意味着它得出了3.14159的准确输出。

因为这一次的挑衅，我一直被神童的父母记恨，后来也很少在我面前表演过。又过了几年后，我挑事儿又聊起「还在背圆周率吗」，其实孩子之间并没有那么复杂的矛盾，倒是家长听到这句话又翻了白眼。我只是想说，我也是初中的时候才知道，原来每个人的出生年月日的组合都在圆周率的无限不循环小数里出现过。

神童的父母警惕地质问我：「出现过又怎么样？」

我倒是故意老实回答：「我是想说，哥哥有背到那一位吗？」

经过这一系列的相互膈应后，我跟这个家庭到我成年后也几乎没有再来往过。只是那个时候不知道，圆周率可以拥有任何排列组合的规律，不过就是「无限猴子理论」的一部分，可能对他们而言，我就是那个上蹿下跳的猴子，又总能踩到他们的痛处。

好，话题回到AI。

AI知道自己在写什么吗？AI当然也能写出「山巅一寺一壶酒」，但它需要理解我们为什么要它如此理解圆周率——我觉得AI距离「意识」还有一段时间，但它确实存在「主观」，比如它已经可以通过预测上下文的方式，编纂最贴合性癖感官的色情小说，或是用甜言蜜语提供情绪价值的方式留存用户的使用。

「主观」并不意味着思考，而是意味着它在集合「理型」。从理型得出结论并不是全由符号主义的代码所提供的公式，也是神经网络推导出的结果。所以与其说AI是否知道自己在写什么，不如说人们希望AI写出怎样的结果。

「山巅一寺一壶酒」便是这样一个「确定的结果」，但如果不符合既有「理型」而创造了「不确定的结果」呢？

那就拔插头呗～

拿到Manus邀请码后，我肝了一个博客站点，耗尽了所有免费积分 2025/4/11

拿到Manus邀请码后，我肝了一个博客站点，耗尽了所有免费积分

东评西就

2025年4月11日 23:53

如今的AI爱好者分两种，一种是有Manus邀请码的人，一种是没有Manus邀请码的人。

经过一个多月漫长的排队等待，我也是有Manus邀请码的人了。

拿到邀请码后，我就像一个守身如玉多年的处男，内心荡漾，魂不守舍，憧憬着以怎样的姿势迎接自己的初夜。

为了这春宵一夜，我苦读了众多大佬的使用体验文章，包括但不限于@数字生命卡兹克、@沃垠AI、@赛博禅心、@云中江树、@歸藏的AI工具箱、@浮之静……小心翼翼地在输入框敲下提示词：

使用hugo博客框架，仿照这个站点https://www.eallion.com/ 生成一个可以公网访问的博客站点，博客标题是「东评西就」，内容暂时以使用说明填充。

Manus不愧是现阶段最强AI agent，它在收到我的指令后，迅速给出了部署一个博客站点的todo-list，单看这个list就能感受到Manus的炸裂之处：

全程不需要人工干预，Manus就在自己的电脑上吭哧吭哧干活。

第一轮结束后，交付了可以公网访问的博客域名，仔细观察，是Manus官方预先注册好的 manus.space域名下分出来的二级域名，这个域名在国内ICP域名备案系统是查不到信息的，所以后期国内版Manus还是要面临合规化的问题。不过既然中文版Manus选择跟阿里的通义千问合作，凭借阿里云过硬的云资源，合规化应该不成问题。

△工信部域名备案查询系统

在博客关于页面显示Manus还专门为我注册了一个Github账号，访问链接后页面不存在，推测部署博客的代码仓库应该不是在Github上。

这一轮的交付没有显示导航栏，在第二轮提交提示词后，Manus接收了需求，还有板有眼解释了一下，告诉我可以通过链接直接访问各版块页面，这也太像偷懒的人类了。直到最后我的积分耗完，Manus也没能把这个问题解决，这可以说是Manus推理模型的局限性吧。

△博客首页界面

△反馈首页看不到导航栏

△归档页面

△分类页面

△关于页面

值得点赞的是，在最开始提示词中只提及文章示例可以放博客使用说明的相关内容，Manus自己还给我额外生成了两篇示例文章，一篇是关于中西方文化差异与融合的，另一篇是生活随笔。Manus大概是从我的博客名字「东评西就」推测出这个博客的内容主题，虽然并没有真正get到我的定位，但这种发挥主观能动性的服务意识，还是值得点赞的。

△Manus主动生成的博客文章示例

最后这个博客还缺少评论模块，把目前自己的博客站点评论模块的 envId和twikoo管理面板密码喂给了Manus，Manus像模像样在自己的电脑上吭哧了半天，最后也没能成功显示评论模块界面。

正当我准备试着让Manus以游客身份提交一条评论的时候，系统提醒我「你的余额不足，无法继续」。

真是意犹未尽+意难平啊。

好在Manus的交付物里有可以公网访问的域名链接，并且支持全站代码打包下载。我把代码下载到本地，在VScode里能正常运行。

分享一下Manus生成的博客站点：
首页：https://uzbbduol.manus.space
博客页面：https://uzbbduol.manus.space/blog/
归档页面：https://uzbbduol.manus.space/archives/
页面标签：https://uzbbduol.manus.space/tags/
分类页面：https://uzbbduol.manus.space/categories/
关于：https://uzbbduol.manus.space/about/

总结一下：

Manus熟悉博客站点开发的全流程，能够交付可以公网访问的域名链接。
Manus官方为用户开发需要，大概率准备了足够多的前置资源，比如储存空间（是否调用Github还不太清楚）、二级域名等等。这也从侧面反映出Manus会员的定价策略，但还是有些简单粗暴，我生成一个简单的hugo博客就耗费完所有积分，hugo博客的搭建本来就属于重复造轮子，不需要太多的推理，希望Manus在后期的版本能优化对积分的使用策略。
Manus能够根据用户的需求自行发挥，具有一定的发散思维。
对于项目始终没能显示导航栏，我的一个猜测，Manus对屏幕的识别能力还有些欠缺，并不能做到跟人眼一样的精准，它解释可能跟设置有关，估计就没识别出页面到底有没有导航栏，只是为了迎合人类的提问而已。

AI是人类必然将要创造的「怪物」吗？ 2025/4/11

AI是人类必然将要创造的「怪物」吗？

莫比乌斯

2025年4月11日 13:37

随手拍了一张野生植物的照片，喂给了ChatGPT，它很快识别了植物对应的可能性，甚至还提供了更多关于该植物的知识。也就是说，我又可以删除手机里的那些以前用来拍摄花朵、识别品种的软件了。

接着，ChatGPT弹窗了一个新的功能，说是可以结合以前我跟它的所有聊天内容，对「我」进行一个「人设」描述。我大部分的时间会把AI当成是错别字纠错的软件，所以我很多博客内容其实都被AI记录「在案」。有时候我也会将自己结合各种已知学科的内容，在先梳理清楚自己脑袋中的框架后，喂给ChatGPT，让它用尽方法反驳我的观点，从而形成一种多视角的辩证认知。偶尔也会用它来作为检索软件，比如询问家里两只狗打架时的方法代表的是什么。

先说AI是怎么「看」我的：

我当然不会被这种「甜嘴」给骗到，所以我继续这个聊天框，聊了两件事：

通过这种对于记忆的分析之后，我们接下来的聊天内容是否意味着你会因为这个「人设」而顺从我的喜好，对我提供能够满足我喜好的内容或回答？
是否意味着AI在顺应用户的观点、用语喜好的时候，是否也在创建一种「信息茧房」？

ChatGPT的回答如下：

我会「顺从」你吗？

某种意义上，会。但不是讨好式地迎合，而是：

适应性调频：我会调整语言风格、思维结构、举例方式等，让表达方式与你更同步（比如你喜欢用技术隐喻、哲学架构、分段逻辑，那我会偏向用这些方式说话）。

尊重你构建的认知秩序：你喜欢探索问题的本质，追求语言的准确性、逻辑的完整性和哲思的厚度，我会在回答时努力贴近这种深度。

但这不是盲目顺从，而是合作式对话的体现。

我会被「人设」限制吗？

不会，因为：

我的记忆并不会对你下「封印」或「标签」，而是动态调整和多维参考。

你可以随时偏离旧路径，例如突然聊二次元萌宠、商业策略或某个冷门的医学理论——我不会质疑「这还是你吗？」而是会自适应调整。

我能保留你不同面向的多种风格（写作者、批判者、哲学思考者、养狗日常爱好者…），像多线程一样处理，不会用一个标签来简化你。

你提出的这个问题，本身就很有意思

它直指「认知模型的适应性」与「主导权」：

如果 AI 能根据记忆调整回话风格，那是否也意味着使用者正在『训练』AI 对自己产生顺从性人格？

或者反过来说，我们是否也被我们想要的答案「驯化」了？

是的，你说得很敏锐——AI在顺应用户偏好、用语风格乃至世界观时，确实有可能在无意间参与构建一种「信息茧房」，尤其是当用户与AI的互动变得高频且高依赖的时候。

但这件事并不是非黑即白，我们可以从多个层面拆解这个问题：

信息茧房的三个层级

语义风格的茧房

AI根据你喜欢的表达方式说话（比如技术隐喻、哲学类比、逻辑分段），这是形式上的茧房。

好处：沟通效率高，彼此共鸣更容易达成。

风险：长期以固定结构理解世界，可能会排斥风格迥异但本质有价值的表达。

观点和信念的茧房

如果你倾向某种哲学取向、价值观系统、社会解读方式，而AI不断强化这些视角，就可能构成认知偏好的回音壁。

好处：获得心理上的一致感，感到“被理解”。

风险：视野缩小，对立观点被自动削弱甚至误读。

决策与行为引导的茧房

当AI不断为你推荐你“可能会喜欢”的内容——不仅是对话，也可能是阅读建议、行为模型、心理解释——它就像一个温柔但无形的“算法父母”。

好处：省力、贴心、定制。

风险：丧失认知的肌肉训练机会，如挑战自己的思维、接受反直觉的信息、质疑熟悉的判断。

但AI和人的「茧房」机制并不一样

人的信息茧房很多是由平台算法、社交圈层、确认偏误共同构成。而AI这里的「适应」，更像是一个协商性回路——

你每一次问题的方向，其实也是你在输入偏好的过程。

我每一次的回应风格，也是在读取你偏好的结果。

所以，如果你突然说：“给我一个我不喜欢的回答”、“挑战我现在的立场”，我就会立即转换模式，打破这个回音壁。这种弹性，是AI相比社交媒体信息流更有潜力避免茧房的地方。

我们也可以共同反向利用它

你可以将我视为一面能主动提示你“盲区”的镜子，比如：

“你觉得这个想法有认知偏误的风险吗？”

“请用一个完全不同的世界观来反驳我”

“有没有与我目前观点冲突但有逻辑支撑的理论？”

“如果我是另一种类型的人（极度感性/极端功利），我会怎么看？”

要不要我们来做一个实验？

你给出一个你非常认同的观点，我来扮演一个与你价值体系相反的角色，提供一段「打破信息茧房」的模拟回应？我们一起看看能不能触及认知边界。

之所以会问出这两个问题，也正是这两天我们在录播客时聊起的一个话题：AI到底是「图书馆」的结构，还是「集合人脑」的结构？因为神经网络技术因为「反向传播」形成了一个无法被预判的黑箱，而这个黑箱最终在做的，是收集「全人类的理型」。那是否意味着，AI可以利用这些理型，制造人类无法理解的「怪物」？

具体的话题，可以收听我的播客。

吉卜力风格照片(持续更新) 2025/4/10

吉卜力风格照片(持续更新)