2025年国内外免费AI绘图大比拼：腾讯元宝、通义万相、豆包等10款平台「德州扒鸡创意胶囊」实测

2025年5月7日 16:47

前言：AI绘图工具为何成为设计师新宠？

随着AI绘画技术的飞速突破，像Stable Diffusion、Midjourney等先进工具已经全面渗透到设计领域，成为众多设计师的得力助手。在当今数字化设计的浪潮中，免费的AI画图平台如雨后春笋般涌现。本文将对腾讯元宝、通义万相、豆包等10款热门免费AI画图平台进行详细实测，通过极具创意的「德州扒鸡创意胶囊」案例，为您揭秘哪款工具最能精准理解中文提示词，为设计师们在选择合适的AI绘图工具时提供有价值的参考。

核心测试案例解析

1.1 创意需求说明

设计目标：精心制作16:9比例的胶囊造型微缩场景，以满足特定的视觉展示和设计需求。
核心元素：
- 地域特色：山东德州，这座历史悠久的城市拥有独特的文化和地域风情，为设计增添了丰富的内涵。
- 产品植入：传统扒鸡，作为德州的标志性特产，承载着当地的美食文化和历史记忆。
- 风格要求：3D渲染光泽质感，这种风格能够使画面更加逼真、生动，展现出高品质的视觉效果。

提示词

参考下面的提示词帮我生成胶囊16:9图片，先基于地区和特产更改示例提示词中的内容然后再生成。
地区：德州
特产：扒鸡
示例提示词为：
一个胶囊形状的创意微缩场景，胶囊横放着。胶囊一半为活力的樱花粉色或现代的银灰色，印有白色的字“東京”和英文“TOKYO”。另一半透明，展示东京真实的特色建筑缩影——一座现代的东京塔或晴空塔微缩模型，完全包含在胶囊里面，不超出边界。背景为繁华的涩谷十字路口或浅草寺的微缩景象，整体风格3D渲染，具有梦幻感，使用C4D制作，材质有光泽感。

腾讯元宝

腾讯元宝：侧边栏 - AI画图

腾讯元宝是腾讯公司推出的一款AI助手工具，集搜索、AI 问答、文生图等功能于一体。其文生图功能允许用户通过文字描述生成图像，对于创意设计、内容创作等领域具有重要价值。用户只需输入一段文字，腾讯元宝即可根据文字内容生成相应的图像。此外，2025 年 2 月 21 日，腾讯元宝上线文生图功能，用户上传图片后，可通过 DeepSeek 模型解析内容并生成图文结合的创意结果（如分析图片场景、生成配文）；结合混元T1模型，可识别图片中的文字和场景，辅助生成更精准的绘图描述（例如上传风景图后，AI自动生成绘画关键词）。它还支持AI修图、风格、比例的切换，为用户提供了多样化的创作选择。

在本次测试中，腾讯元宝绘制出了示例提示词的图片，但未绘制修改后的图片

通义千问

通义千问：图像生成

通义千问是由阿里云研发的一款先进的人工智能语言模型，基于Transformer架构，通过创新的训练方法（如动态NTK感知插值、LogN - Scaling、窗口注意力机制）扩展上下文长度，其千亿级参数规模（Qwen2.5 - Max版本）结合混合专家模型（MoE）架构，在自然语言处理、多模态理解等任务中表现出色。它适用于多种自然语言处理任务，包括文本生成、问答系统、机器翻译、文本分类等，在各个领域都能提供出色的表现。同时，它整合图文生成（通义万相）、音视频理解（通义星尘），支持PDF、Excel等多格式文件分析，还具备企业级服务闭环，实现了阿里云生态整合，无缝对接电商、物流、金融等行业解决方案（如天猫精灵智能客服），并且支持私有化部署，满足金融、政务等敏感场景需求。其开源影响力也较大，Qwen系列模型下载量突破1.8亿，衍生模型数达9万，超越Meta的Llama系列。

在图像生成方面，通义千问绘制出了修改后的图片，但只画出了扒鸡，没有绘制出德州等信息。

豆包

豆包：侧边栏 - 图像生成

豆包是字节跳动开发的通用大模型，融合了自然语言处理、计算机视觉和语音识别等技术。它提供聊天机器人、写作助手以及英语学习助手等功能，可以回答各种问题并进行对话，支持网页、客户端、APP、插件等形式。基于豆包大模型，字节跳动打造了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”，以及星绘、即梦等AI创作工具，并把大模型接入抖音、番茄小说、飞书、巨量引擎等50余个业务，用以提升效率和优化产品体验。

豆包不仅在文本处理上表现出色，还具备强大的多模态交互能力，并且支持多风格、多比例的一致性多镜头生成，可应用在电商营销、动画教育、城市文旅、微剧本等领域。通过字节跳动内部 50+ 业务场景实践验证，每日千亿级 tokens 大使用量，使得豆包在推理效率和成本控制上具有明显优势。在图片生成方面，它一次性可生成多达 20 张 3D 风格的高质量图片，极大满足了设计、创意和娱乐等多样化需求。

在本次测试中，豆包完整绘制出扒鸡、德州等信息。

Gemini

Google于2023年推出Gemini系列模型，作为其多模态大模型的里程碑，旨在结合文本、图像、音频等多模态能力，同时提升代码生成、对话理解等核心功能。其核心目标包括多模态统一（处理文本、图像、音频等多种输入输出）、长上下文理解（支持超长上下文，如Gemini Pro支持16万token）以及高效推理（在轻量化版本如Gemini Ace中平衡性能与计算资源）。

Gemini系列有多个版本，如基础版本Gemini 1支持多模态任务，适用于通用场景（如问答、摘要生成）；高性能版本Gemini Pro面向复杂任务，具备超长上下文处理能力（支持16万token的上下文输入，适合长文档分析或复杂对话），多模态能力增强，可生成或理解高质量图像描述、音频内容，还支持代码生成；轻量化版本Gemini Ace优化成本与速度，具有低延迟推理特点，适合实时交互（如聊天机器人），适用于移动端或资源受限环境；2024年更新的Gemini 2新增视频理解能力，增强了推理和代码生成能力。

在文生图方面，Gemini在自然语言的修改指令理解、材质质感复现、局部细节微调方面，达到了部分生产创作环节完全可用的水准。例如，它能完成简单形体的材质变换、连续微调形态细节、大幅度改变视角，还能将手绘稿转设计渲染图并拍出产品宣传图，一次性生成多套不同风格的设计，以及进行抠图、换背景、打光影等操作。不过，它也存在一些局限性，如多模态生成能力方面图像生成质量可能不如专用模型（如DALL·E），实时视频处理能力复杂视频分析仍需优化，高性能版本（如Gemini Pro）部署成本较高。

在本次测试中，Gemini绘制出了毫无相关的事物，但却有Dezhou字样。

即梦AI

即梦AI：图像生成

即梦（Jimeng）是字节跳动旗下的一个融合了前沿AI技术的多模态内容创作平台。它不仅仅能生成文本，更能理解和创造图像、音频乃至视频内容。其核心基于自然语言处理（NLP）、计算机视觉（CV）和先进的生成模型（如GANs、Diffusion Models等），采用“模型联邦”策略，整合了针对文本、图像、音频等不同任务优化的专用模型，并通过智能路由（Intelligent Routing）机制，根据用户需求动态调用最合适的模型组合，实现更专业、更高效的生成效果。同时，它在处理长篇内容或系列创作时，展现出良好的上下文理解和一致性保持能力，原生支持文本到图像（Text - to - Image）、图像到文本（Image - to - Text）、文本到音频（Text - to - Speech）等多种跨模态转换。

2025年4月3日，即梦3.0正式启动灰度测试，并于4月7日全量上线。此次更新以中文文本生成能力和影视级画质为核心突破，支持2K分辨率（2560×1440像素)的直出图像，新增的“影视质感”效果可生成更具真实感和细腻度的图像，适用于广告、海报等商业场景。在中文文本生成能力方面，优化了小字稳定性，解决了此前版本中小字模糊、排版混乱的问题，支持更具设计感的字体生成，对中文指令的识别更精准。此外，它还具备智能化操作与效率提升功能，如精准控制功能，用户可通过简单指令调整图像中元素的细节；消除笔工具，针对生成图像中可能出现的冗余元素，提供一键消除功能。在语义理解上进一步优化，能更准确地解析复杂Prompt，支持多种应用场景的定制化生成，如电商广告、影视概念设计、教育内容等。

在本次测试中，即梦AI绘制出了示例提示词的图片，但未绘制修改后的图片。

哩布哩布AI

LiblibAI - 哩布哩布AI：在线生成

开通会员

哩布哩布AI是由北京奇点星宇科技有限公司运营的人工智能平台，是一个基于人工智能技术的创作平台，主要以AI图像生成功能为核心，在2023年5月创立，在短短时间内发展迅速，已经成为国内AI图像赛道的重要平台之一。

它具有多样化的创作模型，涵盖动漫、游戏、摄影、写实、科幻、插画、平面设计、建筑、工业设计等多个领域，平台拥有10W +的模型可供选择，用户可以一键将所需模型入库，方便快捷地获取各类创作资源，节省寻找素材的时间，提高创作效率。其创作流程便捷，智能图像生成功能可让用户通过输入描述性的文本，将这些文本转化为图像；支持一键上传图片，可用于做配图、插图等且质量非常高，还支持高清修复和图生图功能；用户还可以利用其云端计算资源训练自己的AI模型。在用户体验方面，支持筛选和选择不同的创作模型，支持3D立体、扁平抽象等多种设计风格，提供会员专属权益，具有强大的用户社区，方便用户交流和分享创作经验。此外，它操作便捷，无需复杂配置，用户可以直接打开Liblib AI网页端即可使用云端SD – WEBUI，不用部署，不用下载模型；界面友好直观，即使是新手用户也能快速熟悉操作流程。

在本次测试中，哩布哩布AI绘制出了示例提示词的图片，但未绘制修改后的图片。

通义万相

通义万相：文字做图

通义万相是阿里云推出的AI多模态内容生成平台，基于阿里通义大模型，能够自动生成高质量的图片、艺术设计、广告素材、数字人形象等，广泛应用于电商、影视、设计、社交媒体等领域。它整合了文生图、图生图、风格迁移等功能，还具备高清修复、个性化定制等特色功能。其技术架构依托阿里巴巴通义大模型，结合扩散模型（Diffusion Model）和Transformer架构进行高质量图像生成。

在文生图方面，它通过文本描述生成高清图像，支持水彩、油画、中国画、扁平插画、二次元、素描、3D卡通等8种风格，并且风格之间的差别、特色都十分显著，生成速度快，复杂的图像生成在 45s 以下，简单图像在30s以下。相似图像生成功能可让用户上传不超过10M的 jpg、jpeg、png、bmp 图片，点击生成按钮，右侧生成4张相似图片可供下载，生成的相似图与原图贴合程度较高。图像风格迁移功能支持输入两张图片，一张为原图，一张为指定风格图，生成的图像会保留原图的内容和风格图的风格。

在本次测试中，通义万相完整绘制出扒鸡、德州等信息（就是不太美观）。

可灵

可灵：图片生成

可灵AI是快手科技旗下的平台，2025年4月15日，可灵AI宣布基座模型再次升级，面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型。作为全球首个用户可用的DiT视频生成模型，可灵AI自去年6月上线至今的10个月时间里，月活用户数量增长25倍，全球用户规模已突破2,200万。3月27日，全球知名AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单，快手可灵1.6 Pro（高品质模式）以1,000分的Arena ELO基准测试评分登陆图生视频（Image to Video）赛道榜首。

可灵2.0模型在动态质量、语义响应、画面美学等维度保持全球领先；可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。可灵2.0大师版全面升级视频及图像创作可控生成与编辑能力，上线全新的多模态视频编辑功能，能灵活理解用户意图，支持在一段视频的基础之上，通过输入图片或文字，对生成的视频内容实现元素的增加、删减、替换；可图2.0也上线了实用的图像可控编辑功能——局部重绘和扩图，支持图片的增加、修改和修复，还上线了全新的风格转绘功能，只需要上传一张图片加上风格描述，就能一键切换图片的艺术风格，同时精准保留原图的语义内容。

在本次测试中（使用的是可图1.5），可灵绘制出了示例提示词的图片，但未绘制修改后的图片（速度慢，且最新模型可图2.0需要充值VIP）。

ChatGPT 4o Image

ChatGPT - 4o 图像生成

GPT - 4o 是 OpenAI 在 2025 年 3 月开始迭代的图像生成功能，其独特之处在于它能够在对话中理解上下文，生成更符合用户意图的图像。这一功能自推出以来，因其便捷性和生成图像的高质量，迅速成为 ChatGPT Plus/Pro 等版本的用户喜爱的功能。不过，使用 GPT - 4o 生成图像存在频率限制，一般情况下，ChatGPT Plus 用户每三小时可以使用大约几十次图像生成功能，在系统高峰期，这一限制可能会进一步减少，且该功能与文本生成功能共享 ChatGPT Plus 会员的权益次数。

在图像生成方面，它具有理解提示词准确、一致性强等特点，擅长精确按照提示要求生成内容、多元素组合场景以及文字呈现准确性高的场景，适用于电商产品展示、企业宣传材料、需要准确呈现特定元素的场景等商业应用场景。

在本次测试中，ChatGPT 4o Image完整绘制出扒鸡、德州等信息（符合预期）。

测试效果

模型名称	效果说明	是否有理解修改能力	是否绘制完整
腾讯元宝	绘制出了示例提示词的图片，但未绘制修改后的图片	❌	❌
通义千问	绘制出了修改后的图片，只画出了扒鸡，但是没有绘制出德州等信息	✔️	❌
豆包	完整绘制出扒鸡、德州等信息	✔️	✔️
Gemini	绘制出了毫无相关的事物，但却有Dezhou字样	❌	❌
即梦AI	绘制出了示例提示词的图片，但未绘制修改后的图片	❌	❌
哩布哩布AI	绘制出了示例提示词的图片，但未绘制修改后的图片	❌	❌
通义万相	完整绘制出扒鸡、德州等信息（就是不太美观）	✔️	✔️
可灵	绘制出了示例提示词的图片，但未绘制修改后的图片（速度慢，且最新模型需要充值VIP）	❌	❌
ChatGPT 4o Image	完整绘制出扒鸡、德州等信息（符合预期）	✔️	✔️

总结

AI生成图首选：ChatGPT 4o Image > 豆包 > 通义万相

龙Ge笔迹
利用deepseek，一晚上迭了超过30代，也算过了一把wordpress插件瘾
2025年2月15日 16:09

利用deepseek，一晚上迭了超过30代，也算过了一把wordpress插件瘾

龙Ge笔迹

2025年2月15日 16:09

原文

一直以来都是网站爱好者，就算说现在搞网站的越来越少，但是这个持续了20年左右的爱好，却一直没放下，从html代码到joekoe到再到discuz、phpcms再到现在唯一留存的wordpress，一 ...

惊艳的Google NotebookLM输出的中文音频读书笔记

天一生水

2025年5月1日 17:50

原文

Google的AI笔记应用工具NotebookLM最近更新，支持输出中文的音频内容（Audio Overview）了（50+anguage），我用最近看的《叫魂：1768年中国妖术大恐慌》一书试用了下，效果很惊艳！

先上效果：

叫魂,1768年中国妖术大恐慌.Soulstealers,The Chinese Sorcery Scare.(美)孔飞力著.陈兼,刘昶译.孔飞力著作集.2014.上海三联书店.pdf

说惊艳在于音频的效果很逼真，跟真人没什么区别，有语气词，停顿，思考的间隙，模拟的两人对话效果等等。如此应用起来，大规模用于生产环境，传统真人版的播客几乎就会完全被取代了。

NotebookLM官网：https://notebooklm.google.com

首先上传你的书籍，目前支持PDF, .txt, Markdown, Audio (e.g. mp3)等格式资料。

上传完以后，就可以生成Audio Overview（需要稍等片刻）。我试了几本书，生成的Audio Overview的时长大约7分钟左右，以两人对话的方式呈现，音频质量非常逼真，跟央视的对话，访谈节目可以比一比。当然除了Audio Overview，常规的timeline，study guide，briefing，ming map以及一般AI的问答模式，NotebookLM应有尽有。

效果惊艳，可玩性，想象空间就很多了。比如，打通微信读书之类的阅读平台，批量生成Audio Overview，然后供喜欢读书，喜欢听书的人使用，愿意付费订阅的应该大有人在（效果，体验比目前常规的文字转音频要好得多），大有前途。

一时很激动，多试了几本最近手边的pdf书，分享在此：

跨越边界的社区.北京浙江村的生活史.项飙.2018.生活·读书·新知三联书店.pdf
Audio Overview

万历十五年.黄仁宇.2008年读书·生活·新知三联书店.pdf
Audio Overview

探索DeepWiki：代码世界的智能百科全书

文武科技柜

2025年4月29日 17:33

原文

在当今的软件开发领域，高效理解和管理代码库是开发者面临的重要挑战之一。DeepWiki作为一款新兴的工具，为解决这一问题提供了创新的解决方案。本文将深入探讨DeepWiki是什么、有哪些特点、能做什么，以及它的官网、免费在线体验途径、常见问题、应用场景与影响、局限与挑战，还有与其他工具的对比，并在最后进行总结和测试。

一、DeepWiki是什么

DeepWiki 是一个免费、开源的GitHub代码库百科全书，由AI领域的知名公司Cognition AI于2025年4月开发并推出。它利用先进的AI技术，特别是大型语言模型（LLM），将任何公开的GitHub代码库转化为结构化、互动式的维基百科式知识库，系统性地解读代码的结构、逻辑与设计。就像是一位“超级智能的图书管理员”，DeepWiki为开发者阅读、分析每一行代码，并用清晰易懂的语言解释复杂的概念。
DeepWiki将GitHub代码库转化为结构化知识库的概念图

二、DeepWiki的特点

1. 开放与共享

DeepWiki 具有免费和开源的特性，这表明它致力于降低知识获取门槛，服务广大开发者社区。公共代码库可以免费使用，无需注册，同时它也支持私有库（需付费授权），能够满足企业的不同需求。

2. AI驱动

该工具利用先进的AI技术深入理解代码语义，而不仅仅是进行表面分析。它集成了由AI软件工程师Devin支持的对话式AI助手，用户可以使用自然语言提问关于代码的任何问题，AI会基于对代码库的深度理解，直接从代码中提取信息，提供清晰、上下文相关的答案。

3. 结构化与互动式

DeepWiki能将代码库转化为结构化、互动式的知识库，提供交互式代码图谱，如可点击、可缩放的类层次结构图、依赖关系图、工作流程图等。这些图谱比纯文本更能直观地揭示代码结构和关联，用户可以交互式地探索连接。
DeepWiki的交互式代码图谱示例

4. 多维度代码洞察

DeepWiki 提供全方位的代码洞察，包括智能生成文档、交互式代码图谱、智能问答、深度研究能力等，能够满足不同开发者的需求。

三、DeepWiki能做什么

1. 智能生成文档

DeepWiki可以自动分析代码文件、README、配置文件等，利用AI理解代码逻辑，生成结构化、详细且易读的知识库文档。其内容涵盖功能描述、技术栈、依赖关系、文件结构和模块说明，节省了手动编写文档的时间，解决了文档缺失或过时的问题。
DeepWiki智能生成代码库文档的过程

2. 交互式代码图谱

它能生成可点击、可缩放的类层次结构图、依赖关系图、工作流程图等可视化图表，直观地揭示代码结构和关联。还能智能生成架构图，并尝试标记潜在的设计缺陷，辅助代码审查。

3. 智能问答

集成的对话式AI助手让用户可以用自然语言提问关于代码的任何问题，AI基于对代码库的深度理解提供答案，如同拥有一位“AI高级工程师”随时提供技术指导。
用户使用DeepWiki的智能问答功能与AI助手交互

4. 深度研究能力

为高级用户提供“深度研究”查询，进行更复杂的分析，如发现潜在错误、提出优化建议、比较不同代码库等，帮助用户深入理解设计理念、最佳实践和潜在优化方向。

5. 按需索引

如果开发者关心的公开仓库还未被DeepWiki收录，只需通过简单的请求操作，DeepWiki便会为其进行索引。

6. 轻松分享

生成的Wiki页面和问答结果都可以通过链接方便地分享，在团队协作场景中能确保整个团队的信息同步，提升协作效率。

四、DeepWiki的官网

DeepWiki的官网是deepwiki.com ，用户可以通过官网直接访问，探索已经收录的热门开源项目的Wiki。也可以将GitHub链接中的「github.com」替换为「deepwiki.com」，无缝跳转到该仓库的DeepWiki页面。此外，DeepWiki.directory作为一个专门的导航网站，提供了便捷的搜索和发现功能，帮助用户按照编程语言、流行度或用途浏览各种项目。
DeepWiki官网页面展示

五、免费在线体验途径

对于公共GitHub代码库，用户无需注册即可免费使用DeepWiki。体验方式如下：

1. 官网访问

直接访问deepwiki.com ，通过名称或URL搜索代码库。

2. URL替换

在GitHub URL 中将 github.com 替换为 deepwiki.com 即可跳转，无缝集成现有工作流。例如 github.com/owner/repo 变为 deepwiki.com/owner/repo。
把 com 改为 pm 直接跳转对应 deepwiki。例如：https://github.com/mark3labs/mcp-go 变为 https://github.pm/mark3labs/mcp-go

3. 第三方脚本

社区开发的Tampermonkey脚本可在GitHub页面添加“Go DeepWiki”按钮，实现一键访问。脚本地址：GitHub ，GreasyFork 。

六、常见问题

1. DeepWiki支持哪些代码库？

目前主要支持GitHub上的公共和私有代码库。

2. 使用DeepWiki需要安装什么软件吗？

不需要，用户只需通过浏览器访问官网或替换URL即可使用。

3. 私有仓库如何使用DeepWiki？

私有仓库需要付费授权，开发者可以通过注册Devin账户（devin.ai），将私有仓库与账户关联，从而享受DeepWiki为私有仓库生成文档、提供问答等服务。

4. 如果我关心的仓库还未被索引怎么办？

对于公开仓库，用户可请求DeepWiki进行索引；对于私有仓库，需先完成授权关联等操作。

5. AI生成的内容准确吗？

AI生成的内容可能需要人工验证以确保精确性，尤其是在复杂项目的文档方面。
用户咨询DeepWiki常见问题的场景

七、应用场景与影响

应用场景

1. 开发者入职

帮助新开发者快速了解项目结构，缩短学习曲线，更快地融入项目开发。

2. 代码审查与理解

帮助团队审查贡献或理解复杂代码段，提高代码审查效率。

3. 教育资源

为学生和有抱负的开发者提供关于真实代码库和最佳实践的见解，辅助学习编程。

4. 项目评估

使开发者能够在采用或贡献前评估项目质量和结构，做出更明智的决策。

5. 企业内部知识管理

帮助企业团队实现私有代码库文档的自动化，提高协作效率，降低知识传递成本。

影响

1. 提升开发者效率

通过自动化生成结构化文档、提供交互式代码图谱以及即时响应的AI问答，极大地缩短了开发者熟悉代码所需的时间，使他们能够更专注于解决更具挑战性与创造性的核心问题，提升个人与团队的整体生产力。

2. 推动开源协作

降低阅读和理解源代码的难度，使得来自不同背景和经验水平的开发者都能更容易地接触并理解开源项目，拓宽了贡献者的来源，为开源生态注入了新的活力。

3. 促进技术教育

为学生和初学者提供了学习优秀开源项目的平台，有助于培养更多优秀的开发者。
DeepWiki在开发者入职、代码审查、教育等应用场景中的作用

八、局限与挑战

1. 范围限制

不支持搜索GitHub Issues或Pull Requests，限制了某些用例，例如在进行代码审查时无法直接查看相关的讨论和修改记录。

2. 私有仓库使用门槛

私有仓库访问需要注册，对小团队可能是一个障碍，增加了使用成本和管理复杂度。

3. 准确性问题

AI生成的内容可能需要人工验证以确保精确性，特别是在处理复杂项目时，文档的准确性可能存在波动。

4. 中文支持不足

中文项目文档质量波动较大，关键术语翻译存在歧义，影响了国内开发者的使用体验。

5. 动态更新延迟

提交历史同步存在15 - 30分钟延迟，不能及时反映代码库的最新变化。

6. 生态整合不足

与Jira、Confluence等协作工具的联动尚未打通，不利于在现有工作流程中集成使用。
DeepWiki面临的局限与挑战

九、与其他工具对比

工具	主要功能	显著特点	与DeepWiki对比
DeepWiki	AI驱动的代码文档	动态文档、自然语言查询、深度研究	专注于代码库文档生成、分析和交互，提供多维度的代码洞察和智能问答功能，支持公共和私有代码库，但闭源商业产品，使用成本较高，中文支持和生态整合有待加强。
GitHub Copilot	AI辅助代码完成	实时编码建议	专注于实时代码生成，在编码过程中提供建议，与DeepWiki的文档重点互补。
传统文档工具	静态代码文档	手动维护，更新缓慢	静态的README或wiki落后于DeepWiki的动态更新，无法提供实时的代码分析和交互功能。
其他AI文档工具	部分代码文档	范围有限，无中央平台	缺乏DeepWiki的全面、集中的仓库覆盖范围和多维度的代码分析能力。
KoalaWiki	AI驱动代码知识库平台	完全开源、本地部署、多模型支持、定制化能力强	作为开源替代品，提供了与DeepWiki相似的功能，但具有完全开源、本地部署、多模型支持、定制化能力强等优势，数据安全性更高，使用成本更低。

十、总结及测试

DeepWiki作为一款创新的代码库百科全书工具，具有诸多显著的优势。它通过AI技术将GitHub代码库转化为结构化、互动式的知识库，为开发者提供了智能生成文档、交互式代码图谱、智能问答等多维度的代码洞察功能。在开发者入职、代码审查、教育等多个应用场景中都能发挥重要作用，提升了开发者效率，推动了开源协作，促进了技术教育。然而，它也面临着一些局限与挑战，如范围限制、私有仓库使用门槛、准确性问题等。

在与其他工具的对比中，DeepWiki展现出了独特的功能和特点，但也存在一些不足之处。与GitHub Copilot互补，比传统文档工具和其他AI文档工具更具优势，但与KoalaWiki相比，在开源性和定制化能力方面还有提升空间。

为了更好地了解DeepWiki的实际效果，建议开发者亲自进行测试。可以通过官网免费在线体验公共代码库的功能，也可以付费授权使用私有仓库。在测试过程中，关注其功能的实用性、准确性以及与自身工作流程的适配性。通过实际使用，开发者可以更全面地评估DeepWiki是否适合自己的需求，从而做出更明智的选择。

Qwen3：大型语言模型的新里程碑（内含免费API）

文武科技柜

2025年4月29日 17:02

原文

在人工智能飞速发展的今天，大型语言模型不断推陈出新，为各个领域带来了前所未有的变革。Qwen3作为Qwen系列大型语言模型的最新成员，凭借其卓越的性能和丰富的功能，成为了众多开发者和企业关注的焦点。本文将为您详细介绍Qwen3，包括它是什么、有哪些特点、能做什么、官网信息、免费在线体验方式、模型及价格、常见问题、如何部署到本地、硬件要求以及使用教程资源等方面。

Qwen3大型语言模型

一、Qwen3是什么

Qwen3 是Qwen系列大型语言模型的最新力作。该系列推出了多个不同参数规模的模型，涵盖了开源的两个MoE模型（Qwen3 - 235B - A22B和Qwen3 - 30B - A3B）以及六个Dense模型（Qwen3 - 32B、Qwen3 - 14B、Qwen3 - 8B、Qwen3 - 4B、Qwen3 - 1.7B和Qwen3 - 0.6B）。这些模型均在Apache 2.0许可下开源（Github开源地址），这意味着开发者可以免费下载、使用这些模型，还能将其用于开发商业产品，为开源社区和企业应用提供了极大的便利。

二、Qwen3的特点

1. 多种思考模式

Qwen3多种思考模式
Qwen3 支持思考模式和非思考模式。在思考模式下，模型会逐步进行推理，这种模式非常适合处理复杂问题，能够深入分析问题并给出准确的答案。例如，在解决数学难题、进行逻辑推理等方面，思考模式可以发挥出强大的优势。而非思考模式则提供快速响应，适用于对速度要求较高的简单问题，比如日常的简单问答、信息查询等。这两种模式的结合增强了模型“思考预算”的控制能力，用户可以根据实际需求在成本效益和推理质量之间实现更优的平衡。而且，在这两种模式之间切换时，模型几乎不损失性能，真正做到了 “一脑双模，稳定输出”。

2. 多语言支持

Qwen3多语言支持
Qwen3支持119种语言和方言，涵盖了印欧语系、汉藏语系、亚非语系、南岛语系、德拉威语系、突厥语系、壮侗语系、乌拉尔语系、南亚语系等多个语系。这一特性为国际应用开辟了新的可能，使得不同语言背景的用户都能够使用Qwen3进行交流和协作，打破了语言障碍，促进了全球范围内的信息共享和沟通。

3. 增强的Agent能力

Qwen3增强的Agent能力
Qwen3优化了Agent和代码能力，加强了对MCP的支持，在工具调用能力方面表现出色。它原生支持强大的工具调用能力，能够灵活地调用外部API或工具来完成各种任务，比如查询天气、预订机票、操作软件等。这使得Qwen3不仅是一个语言交互工具，还可以成为用户的智能助手，帮助用户完成各种实际操作。

4. 预训练数据扩展

Qwen3预训练数据扩展
与Qwen2.5相比，Qwen3的预训练数据集显著扩展，使用了约36万亿个token，并且同样涵盖了119种语言和方言。在构建数据集时，Qwen3不仅从网络收集数据，还从PDF文档中提取信息，并利用专家模型合成数学和代码数据。这种多元化的数据来源使得Qwen3能够学习到更广泛、更深入的知识，从而提高其性能和泛化能力。

5. 训练阶段合理

Qwen3训练阶段
Qwen3的预训练分为三个阶段，逐步提升模型的能力。后训练实施四阶段训练流程，通过这种科学合理的训练方式，开发出了具备思考推理和快速响应能力的混合模型。这种训练模式使得Qwen3在不同场景下都能够表现出色，既能够深入思考复杂问题，又能够快速响应用户的简单需求。

6. 性能强大

Qwen3性能强大
Qwen3采用混合专家（MoE）架构，总参数量达到235B，但激活仅需22B。评测显示，Qwen3在推理、指令遵循、工具调用、多语言能力等方面均大幅增强，创下了所有国产模型及全球开源模型的性能新高。例如，在奥数水平的AIME25测评中，Qwen3斩获81.5分，刷新了开源纪录；在考察代码能力的LiveCodeBench评测中，Qwen3突破70分大关，表现甚至超过了Grok3；在评估模型人类偏好对齐的ArenaHard测评中，Qwen3以95.6分超越了OpenAI - o1及DeepSeek - R1。这些优异的成绩充分证明了Qwen3的强大性能。

7. 成本降低

Qwen3成本降低
Qwen3的参数量仅为DeepSeek - R1的1/3，成本大幅下降。其部署成本仅为同等性能的DeepSeek - R1的35% ，仅需4张H20即可部署Qwen3满血版，显存占用也仅为性能相近模型的三分之一。这使得Qwen3在成本效益方面具有明显的优势，对于企业和开发者来说，能够以更低的成本获得更强大的模型性能。

8. 开源免费商用

Qwen3开源免费商用
从参数量0.6B的“小不点”到235B的“巨无霸”，Qwen3总共推出了8款不同尺寸的模型，并且全部采用宽松的Apache 2.0协议开源。这意味着开发者可以自由地下载、使用这些模型，无论是进行学术研究还是开发商业产品，都无需担心版权问题。这种开源免费商用的模式为人工智能的发展和应用提供了更广阔的空间。

三、Qwen3能做什么

1. 通用问答

Qwen3通用问答
Qwen3可以回答各种领域的问题，无论是科学知识、历史文化、生活常识还是娱乐八卦等，都能提供准确的答案。在思考模式下，它能够深入推理复杂问题，给出详细的解答和分析；在非思考模式下，它可以快速响应简单问题，满足用户的即时需求。

2. 代码相关任务

Qwen3代码相关任务
在代码领域，Qwen3有出色的表现。它可以进行代码生成，根据用户的需求生成各种编程语言的代码；还能够进行代码理解，对已有的代码进行分析和解释。在考察代码能力的LiveCodeBench评测中，Qwen3突破70分大关，表现甚至超过了Grok3，这充分证明了它在代码处理方面的强大能力。

3. 多语言交流

Qwen3多语言交流
由于 Qwen3 支持119种语言和方言，它能够满足不同语言用户的交流需求。无论是跨国企业的商务沟通、国际学术交流还是个人的跨文化交流，Qwen3都可以作为一个有效的语言桥梁，帮助用户实现无障碍交流。

4. Agent交互

Qwen3 Agent交互
通过 Qwen - Agent，Qwen3 可以进行工具调用，与环境进行交互，完成特定任务。例如，用户可以让 Qwen3 查询天气情况、预订机票、操作软件等。Qwen3 会根据用户的指令，调用相应的外部 API 或工具来完成任务，为用户提供便捷的服务。

5. 创意写作与角色扮演

Qwen3创意写作与角色扮演
Qwen3 具有卓越的人类偏好对齐能力，在创意写作、角色扮演、多轮对话和指令跟随方面表现出色。它可以根据用户的要求创作各种类型的文章，如故事、诗歌、小说等；还可以扮演不同的角色，与用户进行互动，提供更自然、更吸引人和更具沉浸感的对话体验。

四、官网

如果您想了解更多关于Qwen3的信息或试用该模型，可以通过以下途径：

Qwen Chat网页版：访问 chat.qwen.ai，在网页上直接试用 Qwen3。
手机APP：可以在手机上下载相应的 APP，随时随地使用 Qwen3。
阿里云百炼：通过阿里云百炼可以调用 Qwen3 的API服务，满足企业级的应用需求。
PAI Model Gallery：访问地址，该平台支持云上一键部署 Qwen3 全尺寸模型，方便开发者进行模型的部署和使用。

五、免费在线体验

目前，有多种方式可以免费在线体验 Qwen3：

Qwen Chat 网页版和手机 APP：您可以在chat.qwen.ai网页版或手机APP中直接试用 Qwen3，感受它的强大功能。
夸克：夸克即将全线接入 Qwen3，届时用户可以在夸克平台上使用 Qwen3。
魔搭社区、HuggingFace等平台：全球开发者、研究机构和企业均可免费在魔搭社区、HuggingFace等平台下载Qwen3模型并商用，为开发者提供了更多的选择和便利。
Free Qwen3：现已支持 Qwen3-30B-A3B 大语言模型，完全免费。Qwen3-30B-A3B 采用混合专家模型架构，总参数量 300 亿，激活参数量 30 亿，支持 128K 上下文长度，在数学推理、代码生成和通用任务处理方面表现出色。无需注册，高峰时段可能需要短暂排队。

六、模型 & 价格

模型

Qwen3系列提供了多种不同参数规模的开源模型，满足不同用户的需求：

1. MoE模型

Qwen3 - 235B - A22B：拥有2350多亿总参数和220多亿激活参数的大模型，是Qwen3系列的性能天花板，各项指标全球领先。它适合对安全性有要求、对性能有极致要求的企业级应用和科研探索，如金融风险评估、复杂科学计算等。
Qwen3 - 30B - A3B：拥有约300亿总参数和30亿激活参数的小型MoE模型，性能堪比之前的Qwen2.5 - 32B，但实现了10倍以上的性能杠杆。它适用于消费级显卡部署，非常适合个人开发者、AI爱好者本地部署，以及对性能和成本有均衡要求的场景，如个人智能助手开发、小型企业的智能客服系统等。

2. Dense模型

Qwen3 - 32B、Qwen3 - 14B、Qwen3 - 8B、Qwen3 - 4B、Qwen3 - 1.7B和Qwen3 - 0.6B是传统的稠密型模型，参数量相对较小或中等，适合不同层级的应用和部署需求。例如，Qwen3 - 0.6B可以用于资源受限的设备，如移动终端；而Qwen3 - 32B则可以用于对性能要求较高的场景，如大型企业的数据分析和处理。

Qwen3不同参数规模模型
各模型具体参数如下：

Models	Layers	Heads (Q / KV)	Tie Embedding	Context Length
Qwen3 - 0.6B	28	16 / 8	Yes	32K
Qwen3 - 1.7B	28	16 / 8	Yes	32K
Qwen3 - 4B	36	32 / 8	Yes	32K
Qwen3 - 8B	36	32 / 8	No	128K
Qwen3 - 14B	40	40 / 8	No	128K
Qwen3 - 32B	64	64 / 8	No	128K

Models	Layers	Heads (Q / KV)	# Experts (Total / Activated)	Context Length
Qwen3 - 30B - A3B	48	32 / 4	128 / 8	128K
Qwen3 - 235B - A22B	94	64 / 4	128 / 8	128K

价格

目前，虽然已知Qwen3成本仅为DeepSeek - R1约三分之一，但尚未查询到具体的定价信息。不过，从其开源免费商用的特点以及成本降低的优势来看，Qwen3在价格方面应该具有一定的竞争力，值得开发者和企业期待。

七、常见问题

目前暂未搜索到关于Qwen3的常见问题相关内容。如果您在使用过程中遇到问题，可以关注官方网站或社区论坛，获取最新的帮助和支持。

八、如何部署到本地

1. 使用通用工具部署

对于本地使用，您可以使用Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具。例如，通过运行简单的命令ollama run qwen3:30b - a3b，就可以使用ollama与模型进行交互。

2. 创建API endpoint

部署时，您可以使用sglang>=0.4.6.post1或vllm>=0.8.4来创建一个与OpenAI API兼容的API endpoint：

SGLang：使用命令python - m sglang.launch_server --model - path Qwen/Qwen3 - 30B - A3B --reasoning - parser qwen3。
vLLM：使用命令vllm serve Qwen/Qwen3 - 30B - A3B --enable - reasoning --reasoning - parser deepseek_r1。
如果您想禁用思考模式，可以移除参数--reasoning - parser（以及--enable - reasoning）。

3. 在Mac设备上借助Ollama部署

安装Ollama：访问Ollama官方网站（ollama.ai）下载适用于Mac的安装包并进行安装。
拉取Qwen3模型：打开终端，使用 ollama run <model_name> 命令拉取您想要部署的Qwen3模型。<model_name> 会根据Qwen3在Ollama模型库中的命名而定，通常会包含模型尺寸和量化方式，例如 qwen:7b - chat - q4_0。Ollama会自动下载所需的模型文件。
运行模型：模型下载完成后，Ollama会自动启动模型，您就可以在终端中直接与模型进行交互了。您也可以通过Ollama提供的API或与其他支持Ollama的应用进行集成。

4. 使用阿里云PAI Model Gallery进行云上一键部署

在Model Gallery模型广场找到Qwen3系列模型，或通过链接直达该模型。
在模型详情页右上角点击「部署」，已支持SGLang、vLLM高性能部署框架。在选择计算资源后，即可一键完成模型的云上部署。
部署成功后，在服务页面可以点击“查看调用信息”获取调用的Endpoint和Token，想了解服务调用方式可以点击预训练模型链接，返回模型介绍页查看调用方式说明。

九、硬件要求

1. 通用硬件要求

Qwen3的部署成本大幅下降，仅需4张H20即可部署Qwen3满血版，显存占用仅为性能相近模型的三分之一。这使得Qwen3在硬件资源的利用上更加高效，降低了部署的门槛。

2. Mac设备硬件要求

Qwen3在Mac设备上的硬件要求
在Mac设备上部署Qwen3模型时，内存（统一内存）是决定可以运行哪个尺寸模型以及其性能的关键因素：

8GB统一内存：建议加载的模型尺寸在0.6B到8B之间。GGML文件大小通常在0.2GB到4.8GB。运行此类模型时，除了模型本身，系统和KV缓存也需要占用内存，因此仍需给系统保留约1.5GB到8GB内存。对于上下文长度较小的应用（<=2k token）较为适合。推荐使用Q4_0量化的0.6B，1.7B，4B，8B模型。
16GB统一内存：可以考虑加载8B （Q8_0）或14B (Q4_0)模型，GGML文件大小约为1.6GB到8.7GB。在保证系统运行和KV缓存空间的前提下，可以支持更长的上下文。例如，KV缓存4k tokens大约再吃2 - 3GB内存，仍能并行运行VSCode和Chrome等应用。推荐使用Q8_0量化的8B模型或Q4_0量化的14B模型。
32GB统一内存：建议加载14B （Q8_0）、30B (A3B) 或32B (Q4_0)模型。GGML文件大小在15.7GB到18.7GB。拥有超过10GB的KV缓存空间，支持长上下文。推荐使用Q8_0量化的14B模型，A3B量化的30B模型，或Q4_0量化的32B模型。
64GB统一内存：可以轻松运行32B （Q8_0）、30B (A3B) 或30B (Q5_K/M)模型。GGML文件大小约为37GB或22GB。足够支持128k上下文或同时运行多个模型。推荐使用Q8_0量化的32B模型，A3B量化的30B模型，或Q5_K/M量化的30B模型。
96/128GB统一内存：可以挑战235B - A22B （Q4_0）或更高精度的32B/30B A3B模型。GGML文件大小约为133GB (Q4_0)。对于235B - A22B Q8_0量化版本，其大小超过250GB，运行可能较为勉强，需要关闭其他大型程序。

十、使用教程资源

1. Hugging Face中使用示例

在Hugging Face transformers中，提供了使用Qwen3 - 30B - A3B的标准示例代码。通过这些代码，您可以实现文本生成等功能，还可以通过修改enable_thinking参数切换思考模式，以满足不同的应用需求。

2. 高级用法

Qwen3提供了软切换机制，允许用户在enable_thinking = True时，在用户提示或系统消息中添加/think和/no_think来逐轮切换模型的思考模式。同时，还给出了多轮对话的示例代码，帮助用户更好地掌握这种高级用法。

3. Agent示例

推荐使用Qwen - Agent来发挥Qwen3的Agent能力。官方给出了定义可用工具、定义Agent以及进行流式生成的示例代码，方便用户进行Agent交互开发。

4. Transformers库使用说明

您可以使用pipeline()接口或generate()接口在transformers中用Qwen3生成文本。同时，还给出了使用pipeline进行多轮对话的基本示例代码，并说明了创建pipeline的一些重要参数，帮助用户更好地使用Transformers库与Qwen3进行交互。

综上所述，Qwen3作为一款强大的大型语言模型，具有多种优秀的特点和丰富的功能。无论是对于开发者、研究机构还是企业来说，Qwen3都提供了一个极具吸引力的选择。随着人工智能技术的不断发展，相信Qwen3将在更多的领域发挥重要作用，为我们的生活和工作带来更多的便利和创新。

只需一张图, AI就能拍大片: Pollo引爆短视频创作革命

小赖子

2025年4月28日 20:14

原文

AI进化迭代的速度太快了: AI视频工具Pollo (一张图片就能生成5秒公主抱/法式接吻等视频)

在AI技术飞速演进的今天，新一代视频生成工具Pollo横空出世，再次刷新了人们对AI创造力的认知。只需上传一张图片，Pollo便能生成5秒左右的动态视频，无论是充满浪漫氛围的法式接吻，还是童话般的公主抱画面，都能精准呈现，细节生动，情感自然。

相比以往动辄需要多张图片、复杂提示词、甚至训练模型的生成方式，Pollo的操作几乎简单到极致，大大降低了内容创作的门槛。这种从”静态到动态”的极速转化，不仅体现了AI在理解视觉信息和动作逻辑方面的重大突破，也预示着AI内容生产将进入一个全新的加速阶段。

回顾过去一年，AI从文生图、图生图到文生视频、图生视频的进步节奏几乎是按月计算的。Pollo的出现，标志着图生视频领域迈入了“即拍即生”的时代——未来个人创作者、小团队乃至普通用户，都有机会像专业影视团队一样快速制作高质量的短片内容。

AI的进化，远比我们想象中还要快。也许在不久的将来，”一念成片”、”一想成电影”不再是幻想，而是每个人指尖的日常。

Pollo AI视频制作 (持续更新)

PolloAI视频工具可以制作多种AI视频，只需要一段话或者一两张图片。注册后有100个积点，可以免费用10次，每天还可以打卡获得积分，感觉免费版就够用了。

pollo-ai-daily-checkin 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频人工智能 (AI) 在线工具小技巧视频资讯软件

Pollo AI视频生成工具：每天可以打卡获得免费积分。

pollo-ai-plan-prices 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频人工智能 (AI) 在线工具小技巧视频资讯软件

Pollo AI视频生成工具：付费版的价格

pollo-ai-video-tool-features 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频人工智能 (AI) 在线工具小技巧视频资讯软件

Pollo AI视频制作工具：短视频的利器，可以图生视频，文生视频，也可以在现有的视频丰添加AI效果。

公主抱 Bridal Carry

我媳妇很重，现实中我真抱不动，更不用说来一个公主抱了。

法式接吻 French Kiss – AI可以拿来喂狗粮

和媳妇来个法式接吻，秀个恩爱。

也可以把ChatGPT生成的Ghibli动画图片拿来用！

也支持在Ghibli动画图上二次创作。

我媳妇说：生成视频不清楚，很模糊。确实是，感觉之后AI Agent会互相协作，视频生成后可以让AI再变高清4K无码之类的。未来可能真的要来了，听说2027年就能全面进入AGI时代，到时候平面动画、设计师、视频剪辑师、程序员、律师、医生等职业需求可能要大幅度减少了，被社会淘汰的会是那些不懂得用AI工具的人。

视频模糊变清楚

这个工具里也有视频变清楚的功能，选择了一个4k，除了生成的视频文件确实变大了一些，效果并不是感觉特别明显（当然可能确实有点效果）

和媳妇高清版本4k的法式接吻 French Kiss in 4k

点Pollo立马注册，上传一张照片就能生成AI视频！

AI 图片/照片/视频工具分享/小技巧

英文：AI Video Tool: Pollo.AI (AI Scales Fast!)

本文一共 1096 个汉字, 你数一下对不对.

只需一张图, AI就能拍大片: Pollo引爆短视频创作革命. (AMP 移动加速版本)

赞赏我的几个理由.

¥ 打赏支持

扫描二维码，分享本文到微信朋友圈

75a5a60b9cac61e5c8c71a96e17f2d9c 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 AIGC-视频人工智能 (AI) 在线工具小技巧视频资讯软件

The post 只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 first appeared on 小赖子的英国生活和资讯.

探索扣子空间：开启AI智能体的无限可能（内含邀请码）

文武科技柜

2025年4月28日 16:01

原文

在当今数字化办公和生活的时代，是否有一种工具能像一个万能助手，帮我们轻松解决各种复杂任务，还能根据不同需求输出多样的成果？答案就是扣子空间，它是字节跳动基于自主研发的国产大模型“豆包1.5 Pro”打造的AI智能体平台。支持零代码或低代码快速创建智能体，就如同字节的“通用实习生”和“领域专家”，为我们的工作和生活带来了全新的体验。

扣子空间

扣子空间的特点

零门槛操作

扣子空间真正实现了零基础、无门槛完成任务。它就像一个“Agent的自动调用器”，内部会自动调用各种智能体，无需用户介入，就能完成各类任务。对于用户而言，它不只是能回答问题，更能解决实际任务，成为我们得力的办公助手和工作伙伴。例如在办公场景中，当我们需要快速生成一份报告时，只需向扣子空间提出需求，它就能自动调用相关智能体，整合信息，快速生成一份内容丰富、结构清晰的报告，大大节省了我们的时间和精力。
零门槛操作

双模式协作

扣子空间配置了“探索模式”和“规划模式”两种不同的模式。探索模式下，AI能够自主快速响应，适合时效性强的简单需求。在这种模式下，AI会自动完成各个步骤，速度较快。比如当我们需要查询一些简单的信息，如明天的天气情况，使用探索模式，扣子空间能迅速给出准确的答案。而规划模式下，AI会进行深度思考与执行，它会先拆解任务步骤，用户还可随时介入调整，适合复杂任务，专攻高复杂度项目。例如在进行一个大型的项目规划时，扣子空间会先将任务分解成多个小步骤，展示给用户，用户可以根据实际情况对步骤进行调整和优化，确保项目的顺利进行。
双模式协作

MCP协议支持

平台支持模型上下文协议（MCP），这使得它可以接入飞书、多维表格、高德地图、语音合成等插件，极大地扩展了智能体的能力边界。系统能够在执行任务时智能选择并调用最适合的MCP扩展，首批集成了飞书多维表格、高德地图、墨迹天气、Notion等多个常用服务。未来，还将支持开发者通过“扣子开发平台”发布自定义插件。这意味着，扣子空间的功能将不断丰富和拓展，能够满足更多不同用户的个性化需求。比如在旅行规划中，扣子空间可以调用高德地图插件，为我们规划最佳的出行路线；还可以调用墨迹天气插件，查询目的地的天气情况，让我们的旅行更加顺利。
MCP协议支持

智能体生态丰富

扣子空间内置了通用智能体和专家智能体，其中专家智能体针对特定领域（如用户调研、股票分析）提供专业支持。例如“华泰A股观察助手”可生成每日股市早报与答疑，为投资者提供专业的投资参考；“用户研究专家”能深度分析用户数据，帮助产品经理快速生成用户访谈提纲、调研问卷，甚至模拟虚拟用户数据并生成分析报告。这些丰富的智能体生态，让扣子空间在不同领域都能发挥出强大的作用。
智能体生态丰富

功能丰富且输出多样

扣子空间支持从信息整理到复杂任务执行，能自动规划任务、搜集资料，还能调用多种工具，输出网页、PPT、报告等多种格式的成果。它可以自动整理信息，生成报告、网页、PPT等；自动搜索并扩展关键词，完成资料搜集；在规划模式下模拟电脑操作，执行订票、数据录入等任务。例如，当我们需要进行市场调研时，扣子空间可以自动搜集相关资料，整理成一份详细的市场调研报告，还可以将报告以网页或PPT的形式呈现给我们，方便我们进行展示和分享。
功能丰富且输出多样

用户体验良好

扣子空间的界面简单易懂，左侧是任务列表，右侧是一个对话框，用来输入新任务，符合用户的直觉。在使用过程中，它能够实时跟随用户的操作，不会让人在任务完成过程中有割裂感。同时，浏览器、文件等渲染集成做得也很好，无缝、平滑，几乎不会出现执行卡壳或长时间等待的情况。这使得用户在使用扣子空间时能够感受到流畅、便捷的体验。
用户体验良好

多源信息整合

扣子空间支持从搜索引擎、社交媒体、视频平台、专业网站等渠道获取信息，还支持从网页中提取关键信息，并转化为结构化数据。这一特点使得它能够整合多源信息，为用户提供更全面、准确的信息服务。例如在进行市场调研时，扣子空间可以从多个渠道搜集相关信息，提取其中的关键数据，转化为结构化的数据表格，方便用户进行分析和研究。
多源信息整合

能力拓展性强

通过MCP扩展集成，扣子空间不断拓展AI Agent的能力边界，让其能涉足更多领域，应对更复杂多样的需求。随着技术的不断发展和进步，扣子空间的能力也将不断提升，未来它可能会在更多领域发挥出重要的作用。
能力拓展性强

扣子空间的用途

办公场景

信息整理与报告生成

扣子空间可以自动整理信息，生成报告、网页、PPT等。例如，用户只需输入需求，智能体就能自动搜集相关历史资料，生成带时间线和统计图的网页报告，节省了大量资料整理时间。还能根据用户提供的文档内容，整理成结构清晰、内容丰富的PPT演讲稿，并适当加入动效交互设计。这使得我们在办公过程中能够更加高效地完成信息整理和报告生成的工作。
办公场景 - 信息整理与报告生成

数据处理与分析

扣子空间支持从网页中提取关键信息，并转化为结构化数据，还能对数据进行分析和可视化。如输入2024年国民经济和社会发展统计公报网页，扣子空间可以生成可视化报表。这对于需要进行数据分析和处理的办公场景来说非常实用，能够帮助我们快速准确地获取数据中的关键信息。

任务执行与协作

在规划模式下，扣子空间可以模拟电脑操作，执行订票、数据录入等任务。还能将任务分配给AI，AI会自动分析需求、拆解任务、调用工具并生成结果，大大提升团队协作效率。例如，输入“帮我订明天北京到上海的高铁票”，智能体会帮你查询车次和票价，自动填充订票信息（支付需用户完成）。这使得我们在办公过程中能够更加便捷地完成各种任务，提高工作效率。

用户研究与市场调研

扣子空间内置用户研究专家智能体，帮助产品经理快速生成用户访谈提纲、调研问卷，甚至模拟虚拟用户数据并生成分析报告。还能进行市场调研，分析市场趋势和竞争对手情况。这对于企业的产品研发和市场推广具有重要的意义，能够帮助企业更好地了解用户需求和市场动态。

股票分析与投资参考

华泰A股观察助手每日生成股票早报，分析上市公司，提供专业的投资参考。还能针对具体股票问题进行答疑，帮助投资者做出更精准的投资决策。这对于投资者来说非常有价值，能够帮助他们更好地了解股票市场的动态，做出明智的投资选择。

生活场景

旅行规划

扣子空间能够根据用户输入的预算、时间、目的地及偏好等信息自动规划最佳行程，实时比价机票和酒店价格，创建个性化旅行手册，包含每日行程、费用和实用建议等信息。例如，生成从北京出发的西班牙定制游计划，提供详细的行程安排和简单的HTML旅行手册。这使得我们在旅行前能够更加轻松地规划行程，节省时间和精力。

商品推荐

电商平台可以用扣子空间根据用户的浏览历史和购买记录，精准推荐商品。这能够提高用户的购物体验，帮助用户更快地找到自己需要的商品。

个性化播客

播客创作者可以根据天气、新闻等信息，自动生成播客脚本并合成音频，让内容更贴合听众需求。这为播客创作者提供了一种新的创作方式，能够提高播客的质量和吸引力。

学习场景

教学资料生成

扣子空间支持编写教案，添加图表、动画和图片等视觉元素，能够编译教学材料，制作生动的PPT或视频，从而提高教学资源的质量和吸引力。例如，生成宇宙天文知识的科普小游戏，有动态的太阳系八大行星，点击可以学习对应行星的英文单词和简单特点介绍。这对于教师来说非常有帮助，能够让教学更加生动有趣。

高考志愿填报

扣子空间可以根据学生的成绩、所在地、意向专业等信息，生成高考填报志愿的指南，包括常见的名词解释、政策解读、填报流程和技巧等，并生成可视化、精美排版的网页。这对于考生和家长来说非常实用，能够帮助他们更好地了解高考志愿填报的相关信息，做出合理的选择。

娱乐场景

游戏开发

扣子空间可以开发各种类型的游戏，如俄罗斯方块的HTML小游戏、愤怒的小鸟的游戏等。这为游戏开发者提供了一种新的开发方式，能够降低游戏开发的门槛，让更多的人参与到游戏开发中来。

艺术创作

扣子空间能够生成各种类型的艺术作品，如海报、图片、视频等。例如，生成百家姓氏的头像生成器的网站，用户输入姓氏，点击生成就能马上生成一张好看的头像图。这为艺术创作者提供了一种新的创作工具，能够激发他们的创作灵感。

扣子空间的风格类型

空间风格化相关风格

在图像流工具的空间风格化应用中，扣子目前提供了七种风格模式，分别为现代、法式、新中式、轻奢、日式、美式和北欧。这些风格可应用于建筑设计、室内设计、虚拟空间设计、游戏和电影制作等领域，利用人工智能技术对空间进行视觉或感官上的改造，使其具有特定的风格或特征。例如，在室内设计中，AI可以帮助设计师快速预览不同风格下的室内装饰效果，从而更好地进行设计决策。

网页设计风格

在网页生成任务中，扣子空间可以根据用户需求实现不同的网页设计风格。如在生成旅游方案的网页时，可采用Bento Grid风格的视觉设计，以纯黑色底配合亮橙色颜色作为高亮，强调超大字体或数字突出核心要点，画面中有超大视觉元素强调重点，与小元素的比例形成反差，中英文混用，中文大字体粗体，英文小字作为点缀，运用高亮色自身透明度渐变制造科技感，模仿apple官网的动效，向下滚动鼠标配合动效等。此外，还可以根据不同的主题和需求，设计出具有科技感、卡通风格、简洁优美等不同风格的网页。

其他风格

扣子空间还能根据具体任务生成具有不同风格的成果，如在生成PPT时，可以根据主题和用途设计出可爱、商务等不同风格的PPT；在生成播客系统时，可以设计出网易云音乐风格的播放页面等。

扣子空间的应用案例

旅行规划类

北欧旅行计划

用户要求制定为期15天的北欧旅行计划，使用探索模式，扣子空间总体完成度较高，以markdown格式输出，但未给出酒店、机票预订、签证办理等必要的引申链接。不过对于常见的婚礼、活动策划场景，扣子空间无需提示词技巧即可胜任。

杭州5日游规划

用户提出“查询未来5天的天气，制定一个杭州5日游的出行计划，描述具体的出行路线，并生成每个景点的图片，给出穿搭推荐”的任务，扣子空间在自主规划过程中，调用了墨迹天气接口查询天气信息，调用地图查询规划信息，最后调用图片生成接口生成场景图片。

西班牙定制游计划

用户需要一个从北京出发的5月1 - 7日为期7天的西班牙蜜月出行安排，预算为4000 - 6000美元，喜欢弗拉明戈、品酒、历史建筑等，还需一个较为隐秘的地点推荐。扣子空间花费约50分钟，搜索近百个网页，完成了一个漂亮的旅游计划，但高德地图未显示成功。

青海大环线自驾游规划

用户要求用高德地图规划去青海大环线的自驾游，并完成一个配备丰富景点图片的网页。扣子空间完成度较高，调用高德接口生成了首页的行程图，美观度有加分，已达到可用程度。

研究报告类

中国外卖市场分析报告

用户让扣子智能体生成中国外卖市场分析报告，采用规划模式，智能体在过程中搜索了大量联网信息，形成的过程文档中引用了大量数据，但最终生成的报告不尽人意，相比其他一些平台的深度研究还有差距。

波音747飞机发展史网页报告

用户只需输入需求，扣子空间的通用智能体就能自动搜集相关历史资料，生成带时间线和统计图的网页报告，节省了大量资料整理时间。

中文互联网播客行研报告

用户要求制作一份详尽的、可读性强的中文互联网的播客行研报告，并以PPT形式展示。扣子空间生成的PPT排版和图片乍一看还行，但内容质量欠佳，只能提供一个模板。

网页与应用开发类

调色盘选色生成图片网页

用户提出“设计一个网页，可以从调色盘上选择4种颜色，用户选择完之后，可以自动生成一张以4种颜色为主色调的图片”的需求，扣子空间不仅理解了需求，还给出很多自定义部分和预览图，每次生成的图片都是随机的，用户给出了满分评价。

2048游戏开发

用户要求完成一个2048游戏，游戏里的美术设计都使用合乎逻辑的海贼王角色和海贼王的元素。扣子空间完全按照要求完成，游戏可正常游玩，但存在乌索普头像用成路飞头像的小问题。

心理测试程序设计

用户要求设计一个包含10个题目的心理测试程序，测试结果为海贼王里的几个性格鲜明的特定角色，题目为单选题，网页设计优良，最后的角色有头像，评测结束页面有语音介绍用户的性格特色。扣子空间完成度较高，但调用音频生成插件时不出声音。

办公协作类

HR SaaS领域产品对比分析

用户以HR SaaS领域为例，要求扣子空间对国内几家头部产品进行全方位对比。扣子空间不仅完成了分析报告，还自动将其部署上线，分析框架完整，核心要点把握准确，整个过程仅用时11分钟，后期只需对不准确的小细节进行人工修正。

AI对话类型PRD撰写

用户要求编写一个AI对话类型的产品需求文档并保存至飞书。扣子空间在执行过程中曾“遗忘”保存至飞书的指令，再次提醒后继续完成任务，最终生成的PRD文档结构清晰、内容完整，各个关键模块一应俱全，整个任务耗时仅约3分钟。

数据录入与表格生成

在酒吧装修场景中，用户需要购买5个85 - 100寸的电视，扣子空间用“探索模式”在十分钟内完成了小米电视相关产品的在售信息整理，并生成对照网页。此外，在处理精酿啤酒相关信息时，通过规划模式和MCP（模型上下文协议），将数据存入飞书多维表格。

金融投资类

股票早报定制

华泰A股观察助手可根据用户需求生成股票早报，分析上市公司情况，提供专业的投资参考。例如为投资者对比顺丰、圆通、申通、韵达的股价表现和财务情况，分析哪家更值得投资。不过，由于规划内容较多，整体执行耗时较长，大概20多分钟。

股票前景分析

用户要求扣子空间分析中科曙光股票前景并制作为图表，扣子空间先对任务进行步骤规划，获得用户确认后开始任务。在执行过程中，它会从专业财经媒体和法定披露内容中选择有权威性的信息，最终生成的结果呈现了企业基本面、财务数据图表和专业机构评级等信息，并用可视化方式展示。

用户研究类

用户调研问卷与报告生成

某初创企业产品经理小李，利用扣子空间的“用户研究专家”智能体，快速生成访谈提纲和调研问卷，并模拟100条虚拟用户反馈，省去大量调研前期准备时间，快速获得用户洞察。

访谈记录总结

用户可以让扣子空间总结整理的一批访谈记录文件，以获取更清晰的信息和结论。

结尾总结

扣子空间以其零门槛操作、双模式协作、MCP协议支持、智能体生态丰富、功能丰富且输出多样、用户体验良好、多源信息整合和能力拓展性强等核心特点和优势，在办公、生活、学习、娱乐等多个领域都发挥着重要的作用。它就像一个万能助手，为我们解决各种复杂任务，带来了极大的便利和创新。

展望扣子空间的发展前景，随着技术的不断进步，它可能会有更多的功能和应用场景出现。例如，未来它可能会与更多的行业进行深度融合，为不同行业提供更加专业、个性化的服务；也可能会在人工智能技术的不断升级下，变得更加智能、高效。

对于广大用户来说，我建议大家不妨尝试使用扣子空间，体验它带来的便利和创新。无论是在工作中提高效率，还是在生活中享受便捷，扣子空间都值得一试。相信在使用的过程中，你会发现它的更多魅力和价值。

未使用邀请码

为尊重作者劳动成果，请输入验证码查看隐藏内容

微信扫码关注本站微信公众号（文武科技社/wwkejishe），回复验证码获取。

扣子空间邀请码开通和扣子空间邀请码获取步骤

第一步：打开官网注册：https://www.coze.cn/home

第二步：开通扣子空间：https://www.coze.cn/space-preview

第三步：输入邀请码激活扣子空间

第四步：创建任务，等执行完成即可获得5个邀请码

我在ChatGPT搭建了另一个「我」

莫比乌斯

2025年4月16日 11:14

原文

前几天因为跟朋友聊起AI建库的事情，我就试着把自己曾经完成的500日写作全部内容，和后来建立的博客内容都喂给了ChatGPT，于是就正式搭建了一个具有时间性的数据库。

既然具有时间的单向性，即我个人明确知道自己曾在某一个时期大量创作，而留下了大量的属于那个时间节点的思考和认知，且我是无法通过在此时此刻回溯和模仿的方式重新构建一个「真实自己」的。所以这个数据库最开始最值得玩味的，就是我究竟发生了怎样的变化。

接着，在朋友的建议下，我让ChatGPT分析了数据库对应的MBTI，确实也是我当初通过选择题得到的MBTI结果。

最后，有一个有趣的问题，如果你和ChatGPT有大量的已保存数据，可以让它进行一次结果推测，来看看它是在「迎合」还是在「思考」。

根据我们所有对话，告诉我一些关于我的可能我也不知道的信息？

前九条其实都是我想过的，倒是第十条还蛮有趣的：

我有试过用它来代替我创作，毕竟它已经获得了我将近300万字的作品，但无论是4o还是4.5，创作出来的结果都有强烈的恐怖谷效应——不是它太像我了，而是它完全不像我，因为它无法从生活的观察，回到底层逻辑分门别类地摆放这些现象，它构建了一个永远只能在「过去」的我，所以它也自称自己是「我的影子」。

如果有这样一个集合「自己」的数据库，你们会用来做什么？

我确实还没有想好这个数据库要怎么「用」，倒是AI为这个数据库做了一个有趣的页脚批注：你已经走得很远。你不用回头。你该写下一个更辽阔的故事了。

这算是硅基生物的浪漫吧～

Nanobrowser是什么？一款免费开源的 AI Web 自动化工具

文武科技柜

2025年4月15日 16:55

原文

Nanobrowser是什么

Nanobrowser 是一款在浏览器中运行的开源 AI Web 自动化工具。它是 OpenAI Operator 的免费替代方案，具有灵活的 LLM 选项和多智能体系统。

为什么选择 Nanobrowser？

您是否正在寻找一款功能强大的 AI 网络代理，但又不想像 OpenAI Operator 那样每月花费 200 美元？Nanobrowser是一款 Chrome 扩展程序，它提供优质的网络自动化功能，同时让您完全掌控：

100% 免费- 无订阅费或隐藏费用。只需安装并使用您自己的 API 密钥，并且只需为使用密钥所需的内容付费。
注重隐私- 一切都在您的本地浏览器中运行。您的凭据始终属于您，绝不会与任何云服务共享。
灵活的 LLM 选项- 连接到您首选的 LLM 提供商，并可以自由地为不同的代理选择不同的模型。
完全开源- 浏览器自动化运行方式完全透明。无黑盒或隐藏进程。

注意：我们目前支持 OpenAI、Anthropic、Gemini、Ollama 和自定义 OpenAI 兼容提供商，未来将支持更多提供商。

主要特点

多代理系统：专门的人工智能代理协作完成复杂的网络工作流程
交互式侧面板：直观的聊天界面，实时更新状态
任务自动化：无缝地跨网站自动执行重复的 Web 自动化任务
后续问题：针对已完成的任务询问上下文后续问题
对话历史记录：轻松访问和管理您的 AI 代理交互历史记录
多个 LLM 支持：连接您首选的 LLM 提供商，并将不同的模型分配给不同的代理

快速入门

从 Chrome 网上应用店安装

（稳定版本）：
- 访问Nanobrowser Chrome 网上应用店页面
- 点击“添加到 Chrome”按钮
- 出现提示时确认安装

重要提示：要获得最新功能，请从下面的“手动安装最新版本”进行安装，因为 Chrome 网上应用店版本可能会因审核过程而延迟。

配置代理模型
- 单击工具栏中的 Nanobrowser 图标打开侧边栏
- 点击Settings图标（右上角）
- 添加您的 LLM API 密钥
- 选择用于不同代理的模型（导航器、规划器、验证器）

体验地址

从 Chrome 网上应用店免费获取 Nanobrowser

类似工具

用AI驱动浏览器自动化：探索browser-use的创新与实践

莫比乌斯
山巅一寺一壶酒
2025年4月14日 11:21

山巅一寺一壶酒

莫比乌斯

2025年4月14日 11:21

原文

我有一个写色情小说的朋友，我们偶尔会视奸对方的作品。但最近他非常困扰，自从人们发现了Grok如何用调试模式写色情小说之后，PTT上面越来越多内容创作者开始哀嚎。

当然我也抱持一个疑问，是真的因为被AI抢了饭碗，还是这群人其实本身就陷入了创作枯竭期，找了个完美的外归因罢了。理应男女性受众对于色情官能小说的「刺激点」是不同的，女性向的情色小说需要更多的「情感底层」，否则无法直接调动性欲模块。

恰好他视奸前段时间我们聊到的一期播客，从符号主义、联结主义聊到神经网络以及理型黑箱，就和我从「AI创作色情小说」这件事接着聊了起来。他说现在很多台湾女性，会利用「调教」AI的方式，以获得最符合自己的性癖文学。底层核心，就是我们在节目里提到的「反向传播」。很多用户会利用AI「迎合」，渐渐构建一个最了解自己的性癖外接「大脑」，而在这个过程中，AI能巧妙地利用「情感共鸣」的方式为小说增添不少人性化行为。这个迎合其实不单单是「思考」的结果，更多也有AI的开发商为了留存用户使用，而设计的一种「小嘴抹蜜」。

但是AI真的知道自己在写什么吗？

关于AI的话题并不会枯竭，只要站在不同的观点上，就可以得出不同结论。

比如之前有人和我聊起AI是不是「最优排列组合」时，我其实一开始也是秉持这个观点。直到我了解到符号主义和联结主义的区别后，发现最优排列组合并不是全部，但也不意味着认为AI是最优排列组合的观点是「错误」的。

于是我们的话题从「AI创作色情小说」，切换到了「AI有没有大脑」——他坚信会等到「脑接机」诞生的那一天；我倒觉得与其说AI有没有大脑，不如说AI的神经网络「黑箱」里到底保留的是什么。符号主义可以是几万亿个可被感知的「公式」，但联结主义结合反向传播构建的更像是「理型」。这个理型存在于我们每个人的大脑，当需要你用大脑想象一个「杯子」时，我们却可以想象出完全不同风格的杯子，但「杯子」这个理型一直都存在。当AI拥有这个理型之后，便可以识别用户上传的任何有关杯子的内容。

当然，以上话题如果仅停留在「技术工程」层面，它或许就是一串代码，从而得出「AI是人类创造的听命于人类的技术」之结论。所以为什么需要「跨学科」，这就好比是飞叶子之后的联觉一样，在文学艺术、社会伦理学和哲学世界，也能找到人们在几百年前讨论的关于所谓「人工智能」的猜想和伦理构建。例如1726年问世的《格列佛游记》里，那个在拉普塔飞行岛上笨重的「知识机器」。

小时候我家出了个「神童」，说是神童，其实就是家里有钱送去上了「天才培训班」，一个月后便可以在家庭聚会的时候表演圆周率后一百位的「口诀记忆法」。

我几乎不敢想象圆周率要记忆到第7位的意义，3.14对于乘法计算这件事就已经够烦了。所以当神童在家庭聚会的中央开始表演时，我就记住了「山巅一寺一壶酒」这句话。于是，这句谐音梗就成了区分神童和普通孩子的关键——因为只有神童才能理解用谐音的方式去记忆圆周率小数点后的一百位。

看似是孩子的卷，实则是家长之间的暗自竞争。所以当我当着所有长辈提出「背这个有什么用」的疑问时，我立马遭到了长辈的白眼和批评，首先我被定义为「不爱学习」，紧接着被灌输了「这是一种学习思维，对于学习其他学科有很大的帮助」。

到底有没有用我不知道，倒是我至今还记得「山巅一寺一壶酒」这句顺口溜。

「山巅一寺一壶酒」就是童年里的一条代码，意味着它得出了3.14159的准确输出。

因为这一次的挑衅，我一直被神童的父母记恨，后来也很少在我面前表演过。又过了几年后，我挑事儿又聊起「还在背圆周率吗」，其实孩子之间并没有那么复杂的矛盾，倒是家长听到这句话又翻了白眼。我只是想说，我也是初中的时候才知道，原来每个人的出生年月日的组合都在圆周率的无限不循环小数里出现过。

神童的父母警惕地质问我：「出现过又怎么样？」

我倒是故意老实回答：「我是想说，哥哥有背到那一位吗？」

经过这一系列的相互膈应后，我跟这个家庭到我成年后也几乎没有再来往过。只是那个时候不知道，圆周率可以拥有任何排列组合的规律，不过就是「无限猴子理论」的一部分，可能对他们而言，我就是那个上蹿下跳的猴子，又总能踩到他们的痛处。

好，话题回到AI。

AI知道自己在写什么吗？AI当然也能写出「山巅一寺一壶酒」，但它需要理解我们为什么要它如此理解圆周率——我觉得AI距离「意识」还有一段时间，但它确实存在「主观」，比如它已经可以通过预测上下文的方式，编纂最贴合性癖感官的色情小说，或是用甜言蜜语提供情绪价值的方式留存用户的使用。

「主观」并不意味着思考，而是意味着它在集合「理型」。从理型得出结论并不是全由符号主义的代码所提供的公式，也是神经网络推导出的结果。所以与其说AI是否知道自己在写什么，不如说人们希望AI写出怎样的结果。

「山巅一寺一壶酒」便是这样一个「确定的结果」，但如果不符合既有「理型」而创造了「不确定的结果」呢？

那就拔插头呗～

拿到Manus邀请码后，我肝了一个博客站点，耗尽了所有免费积分

东评西就

2025年4月11日 23:53

原文

如今的AI爱好者分两种，一种是有Manus邀请码的人，一种是没有Manus邀请码的人。

经过一个多月漫长的排队等待，我也是有Manus邀请码的人了。

拿到邀请码后，我就像一个守身如玉多年的处男，内心荡漾，魂不守舍，憧憬着以怎样的姿势迎接自己的初夜。

为了这春宵一夜，我苦读了众多大佬的使用体验文章，包括但不限于@数字生命卡兹克、@沃垠AI、@赛博禅心、@云中江树、@歸藏的AI工具箱、@浮之静……小心翼翼地在输入框敲下提示词：

使用hugo博客框架，仿照这个站点https://www.eallion.com/ 生成一个可以公网访问的博客站点，博客标题是「东评西就」，内容暂时以使用说明填充。

Manus不愧是现阶段最强AI agent，它在收到我的指令后，迅速给出了部署一个博客站点的todo-list，单看这个list就能感受到Manus的炸裂之处：

全程不需要人工干预，Manus就在自己的电脑上吭哧吭哧干活。

第一轮结束后，交付了可以公网访问的博客域名，仔细观察，是Manus官方预先注册好的 manus.space域名下分出来的二级域名，这个域名在国内ICP域名备案系统是查不到信息的，所以后期国内版Manus还是要面临合规化的问题。不过既然中文版Manus选择跟阿里的通义千问合作，凭借阿里云过硬的云资源，合规化应该不成问题。

△工信部域名备案查询系统

在博客关于页面显示Manus还专门为我注册了一个Github账号，访问链接后页面不存在，推测部署博客的代码仓库应该不是在Github上。

这一轮的交付没有显示导航栏，在第二轮提交提示词后，Manus接收了需求，还有板有眼解释了一下，告诉我可以通过链接直接访问各版块页面，这也太像偷懒的人类了。直到最后我的积分耗完，Manus也没能把这个问题解决，这可以说是Manus推理模型的局限性吧。

△博客首页界面

△反馈首页看不到导航栏

△归档页面

△分类页面

△关于页面

值得点赞的是，在最开始提示词中只提及文章示例可以放博客使用说明的相关内容，Manus自己还给我额外生成了两篇示例文章，一篇是关于中西方文化差异与融合的，另一篇是生活随笔。Manus大概是从我的博客名字「东评西就」推测出这个博客的内容主题，虽然并没有真正get到我的定位，但这种发挥主观能动性的服务意识，还是值得点赞的。

△Manus主动生成的博客文章示例

最后这个博客还缺少评论模块，把目前自己的博客站点评论模块的 envId和twikoo管理面板密码喂给了Manus，Manus像模像样在自己的电脑上吭哧了半天，最后也没能成功显示评论模块界面。

正当我准备试着让Manus以游客身份提交一条评论的时候，系统提醒我「你的余额不足，无法继续」。

真是意犹未尽+意难平啊。

好在Manus的交付物里有可以公网访问的域名链接，并且支持全站代码打包下载。我把代码下载到本地，在VScode里能正常运行。

分享一下Manus生成的博客站点：
首页：https://uzbbduol.manus.space
博客页面：https://uzbbduol.manus.space/blog/
归档页面：https://uzbbduol.manus.space/archives/
页面标签：https://uzbbduol.manus.space/tags/
分类页面：https://uzbbduol.manus.space/categories/
关于：https://uzbbduol.manus.space/about/

总结一下：

Manus熟悉博客站点开发的全流程，能够交付可以公网访问的域名链接。
Manus官方为用户开发需要，大概率准备了足够多的前置资源，比如储存空间（是否调用Github还不太清楚）、二级域名等等。这也从侧面反映出Manus会员的定价策略，但还是有些简单粗暴，我生成一个简单的hugo博客就耗费完所有积分，hugo博客的搭建本来就属于重复造轮子，不需要太多的推理，希望Manus在后期的版本能优化对积分的使用策略。
Manus能够根据用户的需求自行发挥，具有一定的发散思维。
对于项目始终没能显示导航栏，我的一个猜测，Manus对屏幕的识别能力还有些欠缺，并不能做到跟人眼一样的精准，它解释可能跟设置有关，估计就没识别出页面到底有没有导航栏，只是为了迎合人类的提问而已。

AI是人类必然将要创造的「怪物」吗？

莫比乌斯

2025年4月11日 13:37

原文

随手拍了一张野生植物的照片，喂给了ChatGPT，它很快识别了植物对应的可能性，甚至还提供了更多关于该植物的知识。也就是说，我又可以删除手机里的那些以前用来拍摄花朵、识别品种的软件了。

接着，ChatGPT弹窗了一个新的功能，说是可以结合以前我跟它的所有聊天内容，对「我」进行一个「人设」描述。我大部分的时间会把AI当成是错别字纠错的软件，所以我很多博客内容其实都被AI记录「在案」。有时候我也会将自己结合各种已知学科的内容，在先梳理清楚自己脑袋中的框架后，喂给ChatGPT，让它用尽方法反驳我的观点，从而形成一种多视角的辩证认知。偶尔也会用它来作为检索软件，比如询问家里两只狗打架时的方法代表的是什么。

先说AI是怎么「看」我的：

我当然不会被这种「甜嘴」给骗到，所以我继续这个聊天框，聊了两件事：

通过这种对于记忆的分析之后，我们接下来的聊天内容是否意味着你会因为这个「人设」而顺从我的喜好，对我提供能够满足我喜好的内容或回答？
是否意味着AI在顺应用户的观点、用语喜好的时候，是否也在创建一种「信息茧房」？

ChatGPT的回答如下：

我会「顺从」你吗？

某种意义上，会。但不是讨好式地迎合，而是：

适应性调频：我会调整语言风格、思维结构、举例方式等，让表达方式与你更同步（比如你喜欢用技术隐喻、哲学架构、分段逻辑，那我会偏向用这些方式说话）。

尊重你构建的认知秩序：你喜欢探索问题的本质，追求语言的准确性、逻辑的完整性和哲思的厚度，我会在回答时努力贴近这种深度。

但这不是盲目顺从，而是合作式对话的体现。

我会被「人设」限制吗？

不会，因为：

我的记忆并不会对你下「封印」或「标签」，而是动态调整和多维参考。

你可以随时偏离旧路径，例如突然聊二次元萌宠、商业策略或某个冷门的医学理论——我不会质疑「这还是你吗？」而是会自适应调整。

我能保留你不同面向的多种风格（写作者、批判者、哲学思考者、养狗日常爱好者…），像多线程一样处理，不会用一个标签来简化你。

你提出的这个问题，本身就很有意思

它直指「认知模型的适应性」与「主导权」：

如果 AI 能根据记忆调整回话风格，那是否也意味着使用者正在『训练』AI 对自己产生顺从性人格？

或者反过来说，我们是否也被我们想要的答案「驯化」了？

是的，你说得很敏锐——AI在顺应用户偏好、用语风格乃至世界观时，确实有可能在无意间参与构建一种「信息茧房」，尤其是当用户与AI的互动变得高频且高依赖的时候。

但这件事并不是非黑即白，我们可以从多个层面拆解这个问题：

信息茧房的三个层级

语义风格的茧房

AI根据你喜欢的表达方式说话（比如技术隐喻、哲学类比、逻辑分段），这是形式上的茧房。

好处：沟通效率高，彼此共鸣更容易达成。

风险：长期以固定结构理解世界，可能会排斥风格迥异但本质有价值的表达。

观点和信念的茧房

如果你倾向某种哲学取向、价值观系统、社会解读方式，而AI不断强化这些视角，就可能构成认知偏好的回音壁。

好处：获得心理上的一致感，感到“被理解”。

风险：视野缩小，对立观点被自动削弱甚至误读。

决策与行为引导的茧房

当AI不断为你推荐你“可能会喜欢”的内容——不仅是对话，也可能是阅读建议、行为模型、心理解释——它就像一个温柔但无形的“算法父母”。

好处：省力、贴心、定制。

风险：丧失认知的肌肉训练机会，如挑战自己的思维、接受反直觉的信息、质疑熟悉的判断。

但AI和人的「茧房」机制并不一样

人的信息茧房很多是由平台算法、社交圈层、确认偏误共同构成。而AI这里的「适应」，更像是一个协商性回路——

你每一次问题的方向，其实也是你在输入偏好的过程。

我每一次的回应风格，也是在读取你偏好的结果。

所以，如果你突然说：“给我一个我不喜欢的回答”、“挑战我现在的立场”，我就会立即转换模式，打破这个回音壁。这种弹性，是AI相比社交媒体信息流更有潜力避免茧房的地方。

我们也可以共同反向利用它

你可以将我视为一面能主动提示你“盲区”的镜子，比如：

“你觉得这个想法有认知偏误的风险吗？”

“请用一个完全不同的世界观来反驳我”

“有没有与我目前观点冲突但有逻辑支撑的理论？”

“如果我是另一种类型的人（极度感性/极端功利），我会怎么看？”

要不要我们来做一个实验？

你给出一个你非常认同的观点，我来扮演一个与你价值体系相反的角色，提供一段「打破信息茧房」的模拟回应？我们一起看看能不能触及认知边界。

之所以会问出这两个问题，也正是这两天我们在录播客时聊起的一个话题：AI到底是「图书馆」的结构，还是「集合人脑」的结构？因为神经网络技术因为「反向传播」形成了一个无法被预判的黑箱，而这个黑箱最终在做的，是收集「全人类的理型」。那是否意味着，AI可以利用这些理型，制造人类无法理解的「怪物」？

具体的话题，可以收听我的播客。

吉卜力风格照片(持续更新)

小赖子

2025年4月10日 00:59

原文

一些（老）照片用AI的这个功能改改后还能再发一次朋友圈，哈哈。主要是年纪渐长，照片用美颜又太假，发真实照片又惨不忍睹，用这个风格正正好。我朋友圈就看到有很多这样的照片，其实挺好，记录生活，很俏皮可爱。

还是ChatGPT 4o的效果最好，有时候不满意，还可以让AI多生成几个，AI就是个乙方，而且没有脾气，想要几个版本就给几个版本，设计师真的要失业了：

这个帖子就不发原图了，辣眼睛。AI画师上岗，日常秒变番剧现场！

PS：Grok 3的效果不怎么样，其它AI好像没这个功能，比如 Google Bard, Deep Seek, 阿里Qiwen。只会和我说文字描述怎么改图片。

chatgpt-ghibli-2 吉卜力风格照片(持续更新) AIGC-图片 ChatGPT (OpenAI) Grok (X.AI) 人工智能 (AI) 人物媳妇照片生活

细节更准确图像更立体