普通视图

Received today — 2025年6月7日

缘分已尽

2025年6月7日 10:53

在俄乌冲突开始之前,我已经有关注一个俄罗斯的论坛,之所以关注那个地方,是因为我要在那里获得office的激活码。我只用mak的码,码有了以后我还要测试一下有没有次数,然后才会用。俄乌冲突之前,我在那里蹲守的是Office2016的激活码。虽然实际上在蹲守之前,我自己已经在用Office365。我的机器只要登录了就可以使用了,没有烦恼,尤其是当我把办公室的台式机跟家里的台式机都换成了win10以后。win7使用Office365是有问题的,尤其是当win7被微软停止支持以后,只要卸载了office就装不回去了。为什么我还要在那里蹲激活码呢?因为当时单位买的那批联想电脑是工程机,我也不知道联系的那个人是怎么想的,预装的是win10系统。Windows我不知道他们有没有激活,估计是有的,但是office装的是2010没有激活的版本。之所以要蹲守Office2016 proplus是因为当时只有2016 proplus的版本才有Power Query。Office2010肯定没有这个功能的,而且2010跟2016支持的函数也不一样,所以我就一直在那里蹲,等到有激活码了就给同事的台式机装上2016。2016的镜像安装包我都已经准备好了,随时可以装机。

在俄乌冲突之前,那个论坛我的登录方式好像是推特,登录进去以后我就可以直接进了而不需要先做一些特殊处理,因为那个网站不在黑名单里。一开始的时候,我不记得自己有没有设置密码或者密码是什么,因为注册的时候,直接用推特账号解决问题,但显然,俄乌冲突之后,那个论坛推特就不能用了。后来我又试了很多次,我实在已经忘记密码了。想重新注册,但无论如何都不成功。我感觉所有地方我都填对了,但就是不行,说不准到底是哪里出了问题。直到网易免费企业邮箱所有邮件我都批量扒了回来以后发现里面有个俄罗斯网站的密码重置邮件。结果发现原来就是那个论坛。2022年的时候我怎么这么聪明,居然做了个密码重置,用那个账号跟密码进去以后,的确是真的进去了。从网址上看,我应该跳回到我登录前的界面,但实际上给了我一个好像是警告界面。翻译了一下里面的内容,发现原来说我只在那个论坛的激活码板块活动,而且已经半年以上没有活动过了,按照论坛的规定,要把我这个账号给清理掉。我是直接用中国的IP登录的,所以在一堆的俄文里面居然很贴心地写了几句中文。说白就是我这个账号已经被他们封禁了,不可能重新注册。他们知道我之所以在这个论坛活跃,是为了获取激活码,但起码我从来不会拿他们的激活码卖钱。我只是自己使用而已,而且也用得不多。我不可能一直都对激活码这个东西有需求,除非我就是用这个赚钱的,但显然我不是。之所以好长一段时间我都没有活跃在那个地方,是因为怎么登进去我都找不到方式了。俄乌冲突这些年,我就没登录进去过,而且在冲突一开始他们就已经禁止了以前那些用脸书或者推特的登录方式。我可以怎么办呢?长期不活跃的用户被清理掉,这个是可以理解的,但我也不是故意这样干。

好像冥冥之中注定,我跟那个俄罗斯论坛缘分尽了。

终止时间逼近

2025年6月4日 08:38

2025年10月,微软将不再支持win10,同时也不支持Office2016和2019。这里的不支持,就office而言是不会再有任何更新,包括安全更新。但是win10估计某些版本还是继续会有更新的。更不更新,我个人感觉影响不大。就系统的使用来说,问题不大,但关键是对我来说,office很重要,我正在使用的是Microsoft365。这个东西据说win10退出后,依然是可以进行安全更新,直至2028年,这好像就意味着用户可能继续使用Microsoft 365, 但是某些新增的功能,估计就用不上了。Office2021的终止日期是2026年,但只是LTSC,而且是针对win11而言。Office2024的截止日期是2029年。

以前的office很长寿,比如Office2016,存活时间居然跟2019是一样的,一直到2025年10月。简单粗暴计算,差不多有10年,但后来那些就只有5年而已。

为什么我要从win7升级到win10呢?我在win7的时候已经在使用Office365。某次出了状况,当我卸载重装的时候发现装不上。这就逼迫着我必须要把系统换成了win10。现在如果Microsoft365不支持win10,估计要不我得换系统,要不我就只能使用Office2021。之所以说是2021,是因为office2024支持win10的时间最后就只到2025年10月,但不支持是不是意味着不能装不能用?会不会也像之前那样实际上能用,但不让你装。

从win7升级到win10,只要配个固态硬盘做系统盘。基本上可以这么说,老掉牙的CPU和内存都能支持得很好。比如说我家的那个三代i3 CPU加8GB内存。在win10系统下,可以运行得很顺畅,只要你不打开很多浏览器窗口就OK了。单位办公室的电脑是2016年配的,CPU是6代I5,内存也是8GB。CPU比我家那个好,因为晚了好几年,感觉使用起来办公室的电脑会更快,但无论哪一台,要完成日常的工作,一点问题都没有,他们用的都是64位专业版的win10。

win10到win11还真不只是加了一个1这么简单为11,对硬件有了新的要求,老式的那些主板基本上都不符合要求,所以根本没办法从win10升级到win11。但实际上又不能说那么绝对,因为有一些绕过的方式,的确可以把老掉牙主机的win10升级为win11,但是风险显而易见。因为理论上那个硬件是不被支持的,而且相对win10来说,我感觉win11是个半成品,是个四不像,虽然已经推出了好几年,但感觉总有这样那样的问题。光是那个新机买回来,必须联网、没有微软账号就无法激活这一条就让人觉得很恶心。win10是可以免费升级到win11的,不知道现在还行不行,我猜应该还可以。一台新机回来,我不激活,直接格式化掉,装上win10专业版,然后什么都不干,通过更新升级到win11就能绕过那必须联网,必须微软账号的恶心事情。但显然一般的人又怎么会选择这么折腾。就系统的流畅度来说,win10比win11好,尤其是对老的机器来说,所以我为什么要升级到win11呢?我觉得这里很大的一个原因是如果硬是要使用win11,大家就不得不更换机器了。win11是这么个强买强卖,win12如果又要你换呢?根据根据微软的逻辑,以前能撑10年的东西,现在就只能撑5年,那万一下一次是3年呢?东西没有坏,但是却被卡在这种系统软件问题上,让人觉得很不值得。

是这个社会变化的太快吗?还是因为我年纪大了,速度变慢跟不上了。

糟糕的汇总功能

2025年6月1日 08:17

智能化这个东西,我感觉是一个深渊、无底洞。理想很丰满,现实很骨感。几乎可以这么说,现在单位的所谓智能化,无论是单位的作业系统,还是集团公司的OA系统,都是一个四不像的东西。也不是说它们不能把某些数据呈现出来,关键是明明那些明细数据都已经收集齐全了,但是最终那些如何汇总可以这么说,两边都是一团糟。为什么都这么糟糕呢?为什么就不能把数据整合到一个让人舒服的模样呢?最基础的东西不断地让我填,填了一遍又一遍,但最后明明这个汇总结果根据已有的基础数据是完全可以组合生成出来的,但出来的东西就是非常的糟糕。比如说把不应该拼接的东西拼接在一起,结果那个结果就是还不如直接没有,因为放在那里只是碍眼而已,没有任何实质效果。两边的系统都存在这种问题。这是技术上实现不了的吗?显然不是。

因为浪潮现成的那些导出让我们的活没法干,所以我们单位的人也就只能写数据库查询,把我们想要的那些明细数据整合出来,然后通过Excel查询数据库,最终输出。我自己也在做同样的事情,我通过的是Excel的VBA,查询的是多个我自己的原始数据,有些数据只是一个复制粘贴,但有些数据需要日积月累手动录入,之所以不能直接使用系统的数据,因为某些数据是需要进行拆分微调的,某些则需要人肉添加某些必要的字段。为什么浪潮那里就不能把那些字段直接带入呢?还有那些微调,本来是不应该存在的,之所以存在,就是因为发生了一些非常规的业务。某些人觉得这么干没有问题,但实际上他根本没有考虑到我们的系统不支持你这么脑洞大开。再深一层的考虑,为什么会不支持?因为那的确不是一个白纸黑字明码标价说明可以这么操作的事情。难听一点,可以称之为违规,因为规范里根本没说过可以这么干,但如果人情一点,可以说这也是一条没什么问题的操作方式,只是原有的那些不够全面。最终到底认可还是不认可就看你怎么解释,听你解释的人是如何理解、有多大的容忍度。

无论是我的同事查询数据库,还是我用VBA查询多表,最终大家都是根据已有的明细数据生成一个我们觉得舒服、我们需要的那种表达方式。为什么我们能做出来,但是那些所谓系统却做不出来呢?浪潮做不出来,可能是他们根本没有在那个地方用过心。致远做不出来,居然跟我们说是因为我们给的钱不够。实际上有些功能是一期的时候给过钱,写过需求,要求他们那么干的,但实际上他们出来的效果不符合我们的要求。在这种情况下,你应该给我修正过来啊,但为什么没有呢?写需求的人没发现,发现的人不知道如何去反馈。基层单位不知道集团公司当初写的需求是什么。集团公司要基层单位使用这套系统的时候完全没有任何的指引。基层单位只能摸着石头过河,没有手册,没有讲课。我也不知道我应该看到些什么,不应该看到些什么。当我看到一些理论上跟我没有关系的东西的时候,我只能认为可能那套系统就这么个样子,就是可以让我看到,虽然那对我来说没有什么意义。

无论是浪潮还是致远,他们觉得基础数据的收集是他们得做的,而后续的汇总查询是额外的工作量。实际上换一个角度考虑,如果你能把那些字段构直接交给用户,让用户自己去设定流程查询,你完全没有任何工作量。你只需要教会用户如何组合就好了。汇总数据,无论是1个还是10个还是100个,都只是用户发挥想象力的事情而已。他们不敢放开这个,可能他们就没试过放开过。为什么会这么说呢?因为中兴云在介绍他们的系统的时候,就曾经说过这么一条:用户可以自己设定流程,生成自己的查询汇总数据,具备很强的拓展功能。说是这么说,实际上他能不能实现我不知道。显然即便开放了,这也不是一般人就能做得了的事情,起码他得懂一些东西。提出某些汇总需求的人得明确讲出他的数据是怎么来的,然后那个懂一些的人才知道该怎么给你凑出这个玩意。现在我估计情况是要汇总数据的人没有说清楚那是怎么来的,其次那个懂一些帮你设置那个流程的人不存在。

明明打通任督二脉就能轻而易举就解决的问题,现在翻来覆去、耗费大量人力物力。

自动生成Excel索引

2025年5月30日 08:22

我要对一堆的本地eml文件做一个索引,应该用什么方式表达呢?一开始我想到的是做一个html的网页。上面需要表达的信息包括:分类、时间、附件个数、发件人、邮件主题以及文件路径。文件路径应该是一个超链接,我点击这个网页的超链接,就能到达那个文件,可能是直接打开文件。有没有一种方式是打开资源管理器直接锚定到那个文件但不打开呢?一开始我是这么设想的,但后来网友告知,在浏览器层面没办法打开这些文件,因为安全性的原因,浏览器没有打开文件的权限。如果那是一个txt文件,那么你可以直接在浏览器里打开,如果是一个图片,也能打开,但是如果那是一些其它后缀的文件,理论上是打不开的,哪怕你在浏览器里以资源管理器索引的方式打开了文件夹的目录,当你点击某个后缀文件的时候,会弹出一个窗口让你下载。一整个下午我就在这里兜圈子,总感觉是不是有一种方式能够让浏览器弹出资源管理器锚定到那个文件,哪怕不打开文件本身。我一开始天真地觉得,在浏览器里面点超链接就能直接打开eml文件,因为那个后缀的文件我已经设定了默认打开方式是雷鸟。事实证明,我只是一个下午都在白费力气而已。

普通a开头的超链接是无法打开eml文件的,我想到了Excel里面的超链接。Excel的超链接可以直接链接到某个文件。它跟浏览器不一样。不会在Excel里面打开那些东西,哪怕那些个txt或者一个图片,会直接打开文件。所以我就尝试在Excel里给eml文件做一个超链接,结果发现。当我点击那个超链接的时候,会弹出一个窗口,告诉我这么干不安全,但是我依然可以选择是继续打开那个文件,之后雷鸟就会启动,那个eml文件就被打开了。所以简单来说,实际上在Excel里面是直接可以打开eml文件的,不过打开的时候会有一个令人烦恼的弹窗,可能在某些地方进行设置,可以把那个安全提醒的弹窗去掉,但我觉得没有必要。如果你不想被那个弹窗烦恼,你可以右键那个单元格的链接地址,直接贴到任何一个资源管理器地址栏,回车就打开了。操作是有点烦,但起码不会像浏览器那样,打不开或者非让你下载不可。

折腾了一个下午之后,我发现原来我的目标居然是把那个邮件索引做在Excel文件里。Excel的版本可以做的,和之前的功能没有区别,更强大的地方在于如果是在Excel文件里,排序很方便,搜索也很方便。

接下来我没有做更多浪费时间的事情,直接去把这个问题丢给Deepseek,问它如何用Python的方式把批量的 eml文件信息输出到Excel。第1次给我的那个版本只能针对某个路径,但如果那个路径里面还有子文件夹会被忽略,所以后来我增加提问,所以Deepseek又给了我递归那个路径下所有文件夹的版本。默认的回答没有附件个数,所以最后我要加多了要计算每个邮件附件个数的功能。

事实证明Deepseek真的是一个好东西,因为它第1个版本的代码已经能输出大概差不多那种东西,但是不能完全符合我的要求,因为它认为重要的信息和我需要的信息以及排序始终有区别。把pandas里面的数据输出到Excel有好几种方式,但是有些输出方式出来的那个Excel文件我个人感觉很丑,所以我又花了半个下午的时间改成了以xlwings输出,这个东西比其它输出在格式调整方面有更大的调控空间,比如自适配行高和列宽。在其它引擎里可能需要一大段的代码,但是在xlwings里面就只需要一句autofit。之所以知道这个,是因为之前在学Python提高Excel工作效率的书里我已经接触过这个东西。

Deepseek的代码能解决核心问题,但细节调整还是得靠自己。从第1次叫Deepseek写代码到我最终得到我想要的那个Excel索引,花了不到24小时。

手动批量下载完毕

2025年5月29日 08:11

合计花了一天的时间,总算把我网易免费企业邮箱里的邮件下载回来。告诉我邮箱容量调减的时候我看了一眼,那里大概有3900多封邮件。我当然不会全部下载,因为我知道其中很多可能是可以直接删除的,比如京东和淘宝的退款退货发货发票之类的邮件,全部都可以删掉。让我意外的是,原来邮箱的大头是Nature的文件夹。那个东西当我还读大学,还在用雅虎中国邮箱的时候,就已经订阅了。雅虎中国挂掉了以后,我就把邮箱改成了网易的免费企业邮箱,因为邮件太多,所以根本不看,以前在雅虎中国的时候我也不看,直接指定了邮件地址,然后会自动给我分类投放到某个文件夹。并且标注为已读状态,所以接收那些邮件的时候我是无感的。这一次删除的时候,这个文件夹里面的邮件可以完全不看,直接删掉,原来那里有2500多封邮件,合计占了120MB的空间。理论上一下我应该还有1400多封邮件,接下来我得一个一个减肥。最终我下载回来的邮件是548个,放在24个文件夹里,总的大小是113MB。我第1次看有3900多个邮件的时候,占了300多个MB。为什么我合计花一天的时间去下载,就是因为这也包括了我不断的筛选邮件的时间。筛选的过程中我发现好像有些邮件放的目录不太对,所以还得调整过来。

其实下载邮件的过程是挺快的,如果不是遇到那些同名邮件,速度会更快。无论是上TinyTask还是直接手抽筋去点击鼠标都很快。只要你把那个步骤搞熟练了,一切都好说。我得新建文件夹,然后保存文件,接下来开始批量操作,批量的过程中遇到重名文件,得赶紧快捷键退出手动处理。我觉得最耗费我时间的是文件下载回来了,我得在邮箱的列表界面和我的文件夹核对,是不是下载全了。但可能还是会有一些漏网之鱼,就文件数量来说不会缺,但是下载要一定时间,万一我手速太快,浏览器实际上还没下载完,那个邮件已经被我丢到回收站,然后还被我彻底删除了,这就真没得救了,我也不打算纠结自己到底有没有干这种蠢事。下载大文件的时候拼的是网速,下载小文件的时候手速太快就不行了。现在的情况是下载的绝大多数都是很小的文件。小到什么程度呢?还不到10个KB。一边下载,我一边还会把网易文件夹列表里面的邮件清空,然后删除垃圾,这样我就会看到免费企业邮箱到占用容量、邮件数量在不断下降。删除了这些邮件以后,我会把文件夹也删除掉。最后删除的状态就是里面除了通讯录,基本不含我的信息。这样的好处就是哪怕我被黑了,也黑不到什么东西,获取通讯录,知道那些邮箱地址,也难有什么作为。这样一个什么都没有的免费企业邮箱,感觉挺让人放心的。既然我已经花了那么大力气去干这种清空的事情,接下来我就更加没有欲望去网易那边申请恢复我的发件权利。以后估计我很少会用这个邮箱进行注册。其实自从从这个邮箱再也不能发件起,我也基本不用这个邮箱注册,但话说回来,之所以这样,是因为2021年以后,需要用邮箱注册的地方少了,尤其是在国内,而国外我去的时间又少了很多,不会再花发掘些什么好玩的东西了。

接下来我想做的是针对这一批本地储存的eml文件,建立一个索引。从原理上说,我感觉比较简单,但从实施的角度考虑,第一个下午我就已经遇到了一些,我以为很容易,实际上无解的问题了。

小TinyTask解决大问题

2025年5月28日 08:13

再次给网易免费企业邮箱发了个工单,问上一次告诉我的操作方法的图裂的到底是什么。两天之后终于收到了回复,之所以花了两天,因为刚好卡在了周末。看没看到那个图片其实我也觉得不重要了,我猜那个图片是告诉我如何导出某封邮件,就是把那个邮件保存为eml格式。后来工单回复证实了我的猜想。

既然他们觉得只有这种方式把邮件导出,那么我就要用我的思路把邮件批量下载回来。我首先想到的是鼠标录制,可能是针对windows系统的,也可能是针对网页本身的。针对网页本身的,我觉得那些什么油猴脚本之类估计有解决方案。针对系统的,解决方案会更多,因为说白了这是一个批量鼠标操作的过程。如果这是在Excel里进行,可以理解为那就是一个VBA,录制一个鼠标的宏。一开始我用普通的搜索引擎结果,好像都不太靠谱,最后我问了一下Deepseek,发给了我好多方案,我随便就去搜了第1个方案,是一个叫做TinyTask的软件,进行鼠标录制。那个东西很小,只有三十几KB。从那个界面我感觉应该可以满足我的需求,但是当我到那个官方网站的下载页面,发现所有下载链接都指向了github的某个账号,但关键打开那个页面是404。我的第一个感觉是,会不会因为我是用中国的IP打开的呢?于是我又用了其它的方式打开,发现还是404,所以我猜可能那个账户自己主动删除了或者被删除了。说白了就是没办法从最官方网站下载这个软件了。直接搜索软件,在中国的很多下载网站有那个东西,但现在我已经不怎么相信那些玩意了,最后我在吾爱破解论坛里找到了那个东西。吾爱破解里,这个软件还有好几个版本,同一个版本也有好几个款式。有一些是以附件方式出现,需要付论坛币才能下载,有些放到了网盘,但是外链的那些网盘好像打不开,所以我就花了两个币,把那个汉化版下载回来。

经过测试,TinyTask的确能满足我的要求。因为实际上我要做到的就是打开某个邮件先保存一遍,因为我要确认批量保存的是在某个路径下。保存的步骤是下拉菜单,点击下载,保存在某个路径,然后在邮件页面点下一封。如果一切顺利,只需要三个按钮,但关键是以这种方式下载的邮件文件名是缩略版的邮件标题。邮件标题这种东西经常会重复。如果你用录屏的方式,因为出现了告诉你文件重复的弹框,等于有个乱入,会导致整个保存的过程失败。直接用邮件名作为文件名,这个行为可以理解,但难道那些让人保存邮件的人就没想过这样会让批量下载的时候出现大问题吗?他们完全是可以避免这种问题的,只要他在文件名前面加个时间。这里要说明的是不仅仅是日期,而是要精确到时间。如果不用时间就用时间戳,也能实现这个功能。有了时间戳和邮件名,基本上重复的概率很低。但显然,开发下载按钮的那个人根本没想过你要一个一个下载。甚至他们都没想过你要搬家,要把所有东西都挪走。不知道那些通过压缩包方式批量备份的邮件到底是如何避免相同文件名这个问题的。

TinyTask这个鼠标录制软件,在没有遇到相同文件名的时候是很好用的,但是你的速度不能太快,我个人感觉两倍已经是极限了,因为这是一个联网的操作。点击下载以后会弹出一个系统的路径,那个弹出是有一定延迟的,所以你的播放速度太快直接窗口没弹出鼠标就已经点了那个地方,结果是一点效果都不会有的。我的经验设置是把播放速度调为两倍,循环次数为5,邮箱页面列表显示10封邮件。这样批量操作以后,核对是否下载正确眼睛就不会那么累。

既然别人不给我活路,我就只能自己硬是开出一条路。

PS: 键鼠自动宏软件-TinyTask使用教程

豆包的双重水印

2025年6月3日 16:48

字节不仅没活,而且玩不起。

玩不起也就算了,还搞出笑话。


(自上篇文章写完之后,这最近十多天我都没怎么打开过豆包,所以这些事情的具体发生日期不确定)

(PS:文章写得太慢,现在豆包又把预览图水印移动到左上角去了)

豆包开始封杀无水印图片获取方法

之前最基本的方法就是,直接从网页端获取无水印的预览图。因为预览图与下载图的清晰度是相同的,而且下载图是带水印的,所以没必要再去点击下载。

之所以有这么个办法,即 为什么预览图不带水印但是下载图带水印

…… 谁特么能知道字节的员工是怎么想的

然后大约5月28日左右,网上开始有视频说豆包开始在预览图上加水印了。

这就导致包括我之前文章《从豆包下载无水印图片》在内的下载预览图方式获取无水印图片的方法失效了。

screenshot_on_b85m_by_flameshot_at_2025-06-02_16-53-15


豆包的二次水印

这玩意就搞笑。

首先预览图带水印,然后下载图也带水印。

然然后 …… 预览图水印与下载图水印还不一样。

screenshot_on_b85m_by_flameshot_at_2025-06-02_17-09-12

screenshot_on_b85m_by_flameshot_at_2025-06-02_17-09-47

一张图打两个版本的水印,CPU随便用,存储空间不要钱,带宽流量狠劲浪。


豆包视频的双重水印

豆包当然在服务器端是有保存无水印,看上一条你就能知道。

觉得一张图片额外存两份不同水印的副本就足够傻了?

来看 双重水印

https://www.bilibili.com/video/BV1PG7KznEi4/

不方便点开看视频的或者看不懂怎么回事的,我解释一下:

豆包支持将 生成的图片 直接用于 生成视频 。这种功能设定在正常逻辑上很正确,是为了 免去用户手动下载图片,然后再重新上传图片到网站,浪费资源

但是傻屌字节一开始就做歪了。点击 「生成视频」 的时候,是把 预览图 下载到本地,然后转码成BASE64。然后在 「生成视频-发送」 时,却又并不提交浏览器缓存的图片或BASE64,而是直接提交了一堆ID和Token,但是这些ID和Token引用的,是服务器端保存的 带水印的预览图 ,所以最后生成的视频文件,同时带有 预览图水印视频水印

如果梳理一下他们这奇葩行为的流程的话:

  1. 二次下载预览图(会调用浏览器缓存,不浪费带宽,可以理解,但是干啥用?)
  2. 把预览图转码成BASE64(干啥用?)
  3. 提交ID和Token而不是图片(正确操作)
  4. 调用的是服务器端保存的带水印的预览图(有病啊)
  5. 在生成的视频上打水印(在屎上拉屎)

screenshot_7734397622634242-20250602174504

他这玩意,在16:9和4:3以及1:1横向视频上问题还不严重,毕竟两个水印叠加在一起了。但是在9:16纵向视频上,以及21:9宽屏视频上,水印不论位置还是大小都不一样,很显眼的俩水印。

比例 1:1

screenshot_vlcsnap-2025-06-02-22h11m55s457

比例 4:3

screenshot_vlcsnap-2025-06-02-17h48m49s313

比例 16:9

screenshot_vlcsnap-2025-06-02-22h06m34s620

比例 21:9

screenshot_vlcsnap-2025-06-03-00h55m04s645

比例 9:16

screenshot_vlcsnap-2025-06-03-00h54m30s411

这里也有一个视频可以看每个长宽比不同的视频,他们水印都打到了什么地方。

https://www.bilibili.com/video/BV1b27Qz9ENE/

一个做短视频起家的公司,甚至都不关心竖屏视频的输出结果。

PS1:豆包现在线上输出的视频分辨率小于720p,现在是一个很奇葩的数值,16:9 和 9:16 视频的分辨率是 1248×704 。

screenshot_on_b85m_by_flameshot_at_2025-06-03_00-15-25

(这破公司怎么想的)

PS2:假如你 在页面重新下载完预览图转码成BASE64添加到首帧图之前 ,输入完文字(一般是复制粘贴)直接敲回车键提交的话,那么将会以 无首帧图 的场景下,进入 文字生成视频 的流程。还挺滑稽的,以至于我一直以为第五步是要从页面上传一遍图片。

screenshot_on_b85m_by_flameshot_at_2025-06-03_01-01-24


豆包扩图的预览图是个超低分辨率的jpeg

如果使用扩图功能之后刷新页面,那么回到页面时,点开缩略图展开的预览图片,不是真正的预览图片,而是左侧的那个jpeg格式缩略图。

screenshot_on_b85m_by_flameshot_at_2025-06-02_18-26-32

改了一个功能,崩了一堆功能。

只能说IT行业大公司才是程序员平均水平的具象化,刻板印象真的表现得淋漓尽致。


以后如何获取无水印图片

除非豆包重新放开渠道,否则想要直接获取无水印图片是比较困难了。

当然,这个程度的阻碍根本难不倒勤劳智慧的中国人。网上已经有一些办法去掉豆包的这个新水印了。

有水印:

screenshot_7875414228876802-20250603160359-1506-watermark

无水印:

screenshot_7875414228876802-20250603160359-1506

对比:

screenshot_on_b85m_by_flameshot_at_2025-06-03_16-09-07

screenshot_on_b85m_by_flameshot_at_2025-06-03_16-06-56

其他例子:

screenshot_7733561051765506-20250602181125

screenshot_7728629145285122-20250602215251

screenshot_7732002315140098

只不过目前想不出来如何用 userscript 一键搞定这个有点复杂的操作。

其实根本无所谓,现在豆包的输出结果,只要是接触过豆包AI的,一眼就能看出来是豆包3.0的视觉模型,

screenshot_on_b85m_by_flameshot_at_2025-06-02_18-38-56

我可不会觉得字节是担心有人用免费的豆包套一层 人皮 在外边卖服务吧 …… 不过考虑到字节旗下的用户,还真说不准。来个闲鱼修图业务,套人皮用免费AI收费改图。


有人说防污染

也有人说这玩意是为了防止AI输出结果对AI训练的自行污染……呵呵,还能有人觉得AI现在不会自行污染了?

至少我是会在图片上额外再打一个水印的,但是我打的水印AI能不能识别到都不一定。


结尾

我之前做了一个无水印下载脚本,当时遇到了不少问题,比如跨域图片下载,下载图片的命名。

本身豆包页面就有不计其数的逻辑错误,我都懒得吐嘈了。

你要知道上个月的时候字节旗下的那个收费的即梦AI还做不到 下载视频 ,点开下载视频按钮直接打开视频,需要自己再另存为到本地。

现在豆包为了封杀直接下载无水印预览图的方式,搞烂了一堆其他的功能。你说字节是杀敌一千自损八百吧,其实字节根本就没有高端用户,顶多算是杀了自己一千八而已。

即梦那边貌似也在收紧免费业务。

爱咋地咋地吧,最多就是少了一个玩具而已。

(PS:文章写得太慢,现在豆包又把预览图水印移动到左上角去了)

The post 豆包的双重水印 first appeared on 石樱灯笼博客.

豆包这「超能创意 1.0」是把隔夜饭打包重新上架

2025年5月22日 23:42

看来字节没活了。

  • (注1:文章具有时效性)
  • (注2:文章包含大量图片。为照顾布局,部分图片有经过剪切,与线上排版有差异)


前提

建议先读我之前写的这篇文章:《豆包“偷偷”“更新”文生图功能》

然后在讲 豆包这「超能创意 1.0」

简单来讲,我4月末写的那篇文章,差不多是豆包这超能创意的更新,但是他们的文档5月14日才出来。

而且现在状态还是灰度测试?那我之前三个星期用的是啥玩意?

反正现在能确认的只有匿名模式是没这玩意的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-49

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-54-34

有了文档,那就能明确他这玩意到底都更新了个啥,不用我一个一个猜了。

然而……

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-56-57

这破文档的前景水印是怎么回事?TMD这是想要抓截图的人吗?我当然知道字节是有能力跨省甚至雇人跟踪的。

https://www.doubao.com/thread/w0bde7781a980aa4d

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-53-56

https://finance.sina.cn/stock/ssgs/2022-06-08/detail-imizirau7216080.d.html

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-55-42

(我甚至担心,别豆包看见的白底实际上也有不可见的水印。我可没心情翻他们前端代码)

另外,啥叫 超能创意 1.0 版本不稳定,建议保持在「图像生成」技能下使用。 你这整个文档都是「图像生成」,怎么在图像生成之外使用?难道还有其他的灰测?


隔夜饭还是馊的

首先我得勘误一个事情,这个「超能创意 1.0」实际上在4月25日出过更新内容,只不过我上一篇文章却是从4月22日开始写,一直写了5天(你就说有多慢吧),期间也没有仔细检查过他们的更新通知,而且我清晰得记得没有弹框和红点。事实上知道5月20日我才看到5月13日的更新内容。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-20-34

ShowCase 1. 懂你:理解意图

智能理解

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-01-09

这玩意就是之前我提到过的 画蛇添足 问题的元凶。

screenshot_on_b85m_by_flameshot_at_2025-04-23_00-27-11

又是发光墙壁又是雪花的,连传送门都有。

而且,它到底理解了个啥?

https://www.doubao.com/thread/wb6624c2f1e92b5c4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-12-29

(车头对着少女,这明显是公交车进站啊)

只能说这玩意用法过于诡异。

https://www.doubao.com/thread/wcc11bf206e3385f4

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-21

这玩意定位不会是 智力只有小学生程度 的用户吧?公主被抓走什么的,我直接用更精确的 难过 上心 流泪 这些形容词不就好了?

https://www.doubao.com/thread/w40857ee750940325

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-08-57

(你发散思维时,至少把人物主体的手画对好吧?)

只能说这玩意只有在输入的内容过少的时候,自由发挥时有用。但是自由发挥的范围却是不可控的,谁知道什么时候画蛇添足把整体搞崩了。

再说本来你这玩意的理解能力就很烂,遇上个脑子跑偏的用户根本做不出来对应描述的内容。

https://www.doubao.com/thread/w52d13518a1dca2b7

screenshot_on_b85m_by_flameshot_at_2025-05-19_15-23-47

创意发散

怎么看怎么像是给小孩玩的线稿上色。

screenshot_on_b85m_by_flameshot_at_2025-05-18_16-43-21

那你倒是好好给我上色啊。

https://www.doubao.com/thread/w21b3a28319ff897a

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-26-37

得,把你整体构图都改了。

图片处理

你玩我是吧?

这TM不还是 参考图/智能编辑

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-56-29

字节你自己都看不出自己文档里的结果有多么的 伪人

而且这破玩意超级荒唐。我之前文章中《讲讲目前使用线上AI文字生成图片工具的局限性》也说过,这个功能的最大边长是1312,而且模型会降级。

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-53-46

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-11

screenshot_on_b85m_by_flameshot_at_2025-05-14_20-54-21

screenshot_on_b85m_by_flameshot_at_2025-05-14_21-24-53

screenshot_on_b85m_by_flameshot_at_2025-05-14_22-13-12

这玩意与 参考图/智能编辑 唯一的区别在于,入口不是按钮,而是在对话里直接对话执行……有那个必要吗?

这玩意唯一的优点就是,可以一次性批量处理上一次生成的所有图片结果。

https://www.doubao.com/thread/w06260c9d6090427c

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-14-05

把3.0的2048结果输出成2.0模型的1312的结果。

共创:灵感迭代

创意迭代

这不就是刚讲完的 参考图/智能编辑 ,又来?!?!

灵感共创

这不还是 参考图/智能编辑 …… 这是打算解决连续性问题?

我之前也说过,用这玩意讲故事的话,有严重的连续性的问题,改了?

https://www.doubao.com/thread/w994aed0d09b61398

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-25

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-42

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-51

screenshot_on_b85m_by_flameshot_at_2025-05-19_00-56-58

改了个P。还是那个旧版的 参考图/智能编辑 ,四格就崩得 金瞳变蓝瞳,长直变马尾,还把腰给搞没了。

更别说我本身不想使用这个功能的时候,也硬往这个功能里走。

screenshot_on_b85m_by_flameshot_at_2025-05-20_22-46-17

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-51-51

你这啥语境啊就开始拆?!

……

……

……

不对劲!

莫非文档是错的?这功能本来就不是文档例子里那么用?

保持主体不变:

https://www.doubao.com/thread/w26d04c42f808dd27

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-05-30

主体变化:

https://www.doubao.com/thread/w12bb0ff627a19973

screenshot_on_b85m_by_flameshot_at_2025-05-22_14-46-02

实测效果不尽人意。不论是 保持主体不变 还是 主体变化 ,这俩方向都很不稳定。连续性问题没法靠这个办法解决。

甚至这玩意还有两套不同的输出。

https://www.doubao.com/thread/w2ceba308d4e0340b

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-21-09

https://www.doubao.com/thread/w45775221ae6d81cd

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-20-18

配合上莫名的和谐和不识数问题,真的着实不靠谱。

超效率:批量生成 + 自适应:比例适配

这俩玩意我就合到一起讲了。

之前蒙出来过,就是你手动输入生成超过20条的时候,他会按照两个阶段输出。比如输出32张,那就先输出20张,再输出12张。比例也是一样的。

输出4张是为了调整关键字,输出20张是为了批量结果然后在其中挑选,输出超过20张那基本脑子有病。

万千:风格变换

还是 参考图/智能编辑

screenshot_on_b85m_by_flameshot_at_2025-05-20_14-46-59

嘴上说是变画风,实际上背景构图姿势全都变了。


人家不在乎你吃馊的隔夜饭

豆包这超能创意文档就算讲完了。

然后是这个:

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-00-26

这个是文档中的一张配图,没有放在首页里,但是在链接里 https://www.doubao.com/thread/w1abc0acf83af4ce3。字节的飞书也屏蔽了 web archive 的抓取,所以也没有历史可查。我只能说人家写文档的时候就没在意这些功能可用性有多高。

你仍然可以点开文档中的链接,看到带着各种报错信息的例子 ,比如 https://www.doubao.com/thread/wa0538d95b92a9a17

事实上他这文档最后的 BadCase 里竟然还写了会崩溃。崩溃也就算了,把日志打到用户侧也实在是太……傲慢。


开始讲文档里没有的东西

严重不识别最高级别的关键字

自己不能手选模型版本,不能选模型分类,现在连模型关键字都忽略了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-56-43

旧版往动漫降级,新版则是模型乱跑。

不识数的问题更严重了

之前文章说过,有时候就莫名奇妙只输出1张图片。当时认为是错把文中的数字当输入数量,手动设置输出数量或许就行。

screenshot_on_b85m_by_flameshot_at_2025-05-17_16-02-03

这回是都看到输入数量了,还是只出一张图。

这人工智能怎么还阿尔茨海默症了。

内容错误

说实话我是没明白豆包这产品的输出定位是什么。至少很多东西在他的模型里是没有概念的。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-10-40

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-12-48

反正目前的水准只能当作玩具。

更烂的理解能力 VS 更精确的提示词

这破玩意说白了就像打车,你上了车说要去美食城,司机却说美食城有啥好玩的我带你去更好的地方,说罢就把你拉近黑煤窑附近的苍蝇馆子。尤其是你去美食城并不是去吃饭而只是去美食城附近其他地方的时候。

screenshot_on_b85m_by_flameshot_at_2025-05-22_01-05-05

本身你达不到用户的精确需求的时候,却说不要被过程绑架。爹味十足。

假设在中考卷子上写「不要被推倒过程和正确答案绑架」……这TMD的确听起来像是个中专生能干得出来的事情……蠢爹有个蠢儿子。

screenshot_on_b85m_by_flameshot_at_2025-05-15_15-54-25

screenshot_on_b85m_by_flameshot_at_2025-05-15_01-16-25

screenshot_on_b85m_by_flameshot_at_2025-05-17_13-20-10

这玩意最诡异的还是当你关注两个关键要素的时候,比如「过膝靴」和「过肘手套」,「过膝袜」和「手臂抵住膝盖」,精确度总是歪的。有「过肘手套」那「过膝靴」就只有腿没有脚,有「过膝袜」那就没有「手臂抵住膝盖」。

敏感词提示没了

之前文章中讲过,4月份更新的时候,多了个 敏感词/违禁词 提示。这功能不说好坏,至少能让用户知道某些词不能用。现在,没了。

现在的情况,要不就是直接弹个黄框然后没反映,要不就是输出4个你看不到的图片,要不就是在有上文的情况下直接忽视 敏感词/违禁词。还挺随机的。

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-32-54

「喷.+水」

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-43-20

screenshot_on_b85m_by_flameshot_at_2025-05-18_22-52-07

看来字节也知道把「领导」这种词当成 敏感词/违禁词 被截图也会很尴尬吧。

更诡异的 敏感词/违禁词

(写完问发现这是视频生成的违禁词。因为本篇重点在文生图和图生图上所以我不打算重点讲这一块,我目前只能说的确有更诡异的 敏感词/违禁词,而且 视频生成 还有额外的一套 敏感词/违禁词,而且还有图像识别用来检查输入图像是否合规,尤其是豆包自己AI生成的图片也有可能无法通过审查,而使用与豆包相同模型的即梦AI的审查更严格)

screenshot_on_b85m_by_flameshot_at_2025-05-18_15-09-40

你要说「领导」是 敏感词/违禁词 我能理解。

「射出水」明显比「喷水」更令 封建势力感到有伤风化 吧?还是说因为内容主体是女性,只能「喷」而不能「射」?

中国人的AI的想像也能在这一层能够如此跃进吗?

NTM 要是能在内容上精确,而不是在 敏感词/违禁词 上也瞎「创意」就好了。


是时候破案了

之前文章中有写到过,豆包的豆包大模型背靠的是字节的火山引擎。而火山引擎的后台做得稀烂。

我甚至发现 console.volcengine.com 的域名解析都是混乱的,这不会是被运营商污染了吧。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-39-37

(想想看假如真的是国内网站被 DNS污染 ,还挺搞笑的)

在 hosts 里添加了个静态地址,稳定了不少。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-42-36

不得不说字节这CDN用得的确有点丧心病狂。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-49-07

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-48-16

为什么「参考图/智能编辑」的输出结果这么烂

火山引擎这官网非常难打开,而且文档也写得稀烂,所以我之前没怎么看过。其实现在我也不想看。

简单来讲,豆包线上用的文生图模型是:doubao-seedream-3.0-t2i,而 「参考图/智能编辑」 功能其实在学名上是叫做 「图生图」 ,而这个功能只有 2.0 和 更旧的版本 支持。不仅如此,官方文档介绍里还把 2.0 的「图生图」给漏掉了。

screenshot_on_b85m_by_flameshot_at_2025-05-19_16-56-17

事实上你看这两个文档在文档结构里离得有多远就清楚这帮助系统做得是有多稀烂了,模型列表里甚至都没有 2.0 的图文模型。

这就很好理解了。所谓的「参考图/智能编辑」 功能其实是把图片走了另一套逻辑,进的另一个旧模型,输出参数也更低更差。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-48-28

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-45-01

screenshot_on_b85m_by_flameshot_at_2025-05-20_12-37-56

就这个错误程度,已经跟准确度精度都不搭边了。

2.0模型的输出结果又是如何?

(因为这文章是写完主题后查漏补缺补的,所以顺序有点乱)

这里要用到与豆包使用同样模型的收费工具:即梦AI。

(关于即梦的介绍见文章后部分)

动画模型

我用相同的提示词,不同的模型生成图片。

3.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-45

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-04-19

2.0

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-21

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-55

可以看出,2.0的图片虽然看起来很花俏,但很明显的3.0图片精度更高。实际使用场景当然是正确度优先于花俏度的(除非当作无目标的玩具瞎玩)

(但是2.0的妹子,胸大,穿得短,露得多……??????)

screenshot_webp_jimeng-2025-05-21-815-

screenshot_webp_a182c8c2ba7b4dcf9251d7bf838104b2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_66549995fe64497891506f200ec4e316~tplv-tb4s082cfz-aigc_resize_2400_2400

有时候你也不能说哪个好看,毕竟这玩意风格都不一样,简直就是换了个人画画,作画方向不一样,风格也不一样,说不了谁好谁坏。

但是论精度,肯定是3.0的更靠谱,因为这些图片都是在2.0先出图后,在3.0那边细调出来的。3.0的关键词在2.0下跑偏得离谱。假如3.0的精度是 3/4 的话(出4张图能有3张图匹配一定的文字描述),那2.0的精度差不多是 1/16 (出16张图能有3张图匹配一定的文字描述)。我只能说「一定程度上」的,因为大部分时候你怎么折腾,3.0都匹配不上,更别说2.0了。

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-22-21

动漫站姿,结果一个坐地上,一个是人像。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-12-44

腿画错,手套画错,没画鞋,衣服画错,手画错……

至少3.0的正确率更高。

screenshot_on_b85m_by_flameshot_at_2025-05-22_00-16-08

另外关于露的现象。

screenshot_webp_56b8713e42d247c4a855868d618aa3a2~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_webp_6c699579a0aa4c3899d60799f9444f57~tplv-tb4s082cfz-aigc_resize_2400_2400

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-13-21

不是……你这么喜欢露,你把我 参考图/智能编辑 的 搞没了干什么?

人像模型

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-22-22

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-21-53

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-19

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-18-28

3.0的出图,假如有人说这是张真人高P图,大概率没法分清真伪。

图生图

然后在使用特定的3.0图片使用2.0模型进行图生图

screenshot_6525640716060930-20250521170520

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-00-43

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-01-18

很明显2.0的花俏不仅没了,3.0原图的细节也被抹掉不少。

人像这块就不用对比了,2.0的伪人非常明显。

假如使用2.0的输出结果进行图生图

screenshot_jimeng-2025-05-21-811-

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-34

screenshot_on_b85m_by_flameshot_at_2025-05-21_20-25-53

能明显感觉到差距小变化就小。

他们如何盈利

我之前文章中说:豆包模型背后的火山方舟文生图的付费接口仍然是旧版的2.0模型,付费服务比免费服务还烂,是超出我的想象的。 事实上人家当然不用在意。

现在火山方舟已经有3.0模型,不过已经无所谓了。

screenshot_on_b85m_by_flameshot_at_2025-05-14_23-33-37

豆包也不需要盈利,因为豆包背靠的火山引擎背靠的字节下面的剪映下面还有另一个产品化的AI工具:即梦AI。

screenshot_on_b85m_by_flameshot_at_2025-05-19_17-33-58

screenshot_on_b85m_by_flameshot_at_2025-05-15_00-00-58

(能看到使用与豆包相同模型的即梦AI,高版本模型同样没有「参考图/智能编辑」功能)

事实上如今市场上有相当多的AI生成工具,而且大部分都是收费的,仅给定一点免费额度。而且免费文生图这一块质量最好的是豆包。

豆包目前的水准也仅仅是当玩具,而付费服务价格非常高,作为短期玩具花大钱不值得,作为长期工具,这个价格还不如自己花钱买显卡。可想而知 收费产品 真的只赚傻子的钱。

真实的Prompt究竟是怎样的?

之前文中没写过(但是评论里有提到过),现在的AI出图工具一般是有 「积极提示词」「消极提示词」 两种提示词入口的,但是国内这些文生图工具基本上都没有 negative prompt 这个输入接口。

但是不提供不等于没有:

screenshot_on_b85m_by_flameshot_at_2025-05-15_23-00-30

(所以我说你把错误日志打印到用户侧实在太过于傲慢了)

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-37-45

screenshot_on_b85m_by_flameshot_at_2025-05-18_20-38-05

negative prompt 是内置的关键词,不会被用户输入影响。

不仅如此,prompt 还并不是你的文本输入,而是被 AI 跑过的内容。这也就意味着你的输入很可能被AI误解而变成乱七八糟的东西,而这玩意在报错崩溃之前,你是看不到的,更没办法调整。

更搞笑的是,同类产品甚至还提供把你的关键词输入通过 DeepSeek 转换为人类语言的功能。

screenshot_on_b85m_by_flameshot_at_2025-05-19_18-36-51

(把人类当工具,把工具当爹)

只不过 DeepSeek 这玩意吧,你只给一张图片然后让他 发散 的话,大概率走到资源耗尽啥总结都归纳不出来。

screenshot_on_b85m_by_flameshot_at_2025-05-20_00-07-18

本身 AI 就只有 收敛 这一个能力,你还让人家发散。


那就顺便把视频生成也讲一点吧

参见这个视频:【AI 参考图/智能编辑 + 图片生成视频 效果展示。】

我把部分AI生成的原图片和使用 参考图/智能编辑 的图片,使用支持首尾帧的AI视频功能穿起来,然后重新排版编码成这个视频。你可以清楚的看到目前豆包3.0模型输出结果和其支持图生图的2.0模型之间的差距。

视频这一块也是同理。支持 AI首尾帧 的模型要比目前的模型落后非常远,所以输出质量惨不忍睹。

screenshot_on_b85m_by_flameshot_at_2025-05-21_19-45-03

事实上即使是最新的视频模型3.0,其输出质量也远比图形模型3.0差很远。


结论

我也说不准到底是没活可整了还是旧活新整……还是说本来旧活就没整起来,重新包装一下重新整。

所谓的新功能大部分都是「参考图/智能编辑」,而且由于文生图和图生图模型之间差异巨大,越整越烂。

不过说到底,豆包也是目前唯一一个免费提供所谓 3.0 版本文生图功能的软件,其他 付费软件 都只有豆包2.0甚至1.5的水准。

豆包也提供每日10次的图片转5秒视频功能,输出质量虽然一言难尽(模型应该也是1.5-2.0之间的水平,跟3.0差远了),好歹聊胜于无。

相对来讲,豆包反而良心多了。

其他 付费软件 的输出质量更差,我真的理解不了会有什么人高价买会员。

当然,每年都720充魔兽世界年卡然后完全不玩不上线的人,我现实中就认识一大把。

尤其是官僚主义死灰复燃形式主义死不悔改的今天。

2022年:https://www.bilibili.com/video/BV1Fv4y1B7An?t=495

screenshot_on_b85m_by_flameshot_at_2025-05-22_15-37-11

2025年:

screenshot_on_b85m_by_flameshot_at_2025-05-21_22-31-19

更别说现在还有这么多拿AI写博客发评论的人……

花个几百几千充个所谓「AI生产力工具」岂不更是名正言顺?

The post 豆包这「超能创意 1.0」是把隔夜饭打包重新上架 first appeared on 石樱灯笼博客.

豆包“偷偷”“更新”文生图功能

2025年4月27日 01:06

大概是4月21日的晚上,豆包偷偷更新了。不能说是升级,因为出图效果明显劣化了。

倒是没有劣化成之前2.0那个版本。模型的确是更新了,但是精度大幅度下降了,乱七八糟的东西变多了。当然了,豆包的产品动态里屁内容都没有。

本文讲一下已知的变更。

(文章内容随时间推移而失效)


变更

屁话

首先是出图时增加了一堆屁话。

screenshot_on_b85m_by_flameshot_at_2025-04-24_00-39-46

看着像是把你的文本重新理解后重输出,这样好利于你接下来更改你的错误输入。

实际上放了个屁。

这段重排的文字和文生图的最终关系,从结果来看根本没关联。文字上好像是理解了你的文字输入,但实际上最终图片结果大部分场景下跟这段重排文字没啥关系,该错还是错的,这反而更加显蠢。


不知为何把 Debug Log 打到输出了

screenshot_on_b85m_by_flameshot_at_2025-04-21_23-54-12

周一大半夜更新线上业务本来就很恶心,然后这Bug一直活到现在。

看来其实他们根本不在乎这个业务的死活,就是做着玩的。


敏感词提示

这个算是一个有用的更新。

screenshot_on_b85m_by_flameshot_at_2025-04-22_17-06-20

比上来就生成失败然后把输入都给删了强多了。

等有机会把「领导」这个黑名单词汇出个图。


出图精度大幅下降

这是水下吗?这是游泳吗?这游泳馆为啥有海豚?

screenshot_on_b85m_by_flameshot_at_2025-04-23_23-12-58


画蛇添足问题明显

这狗熊脸哪里来的?

screenshot_on_b85m_by_flameshot_at_2025-04-24_00-14-20

这还不是最麻烦的,最麻烦的是,整体场景多余内容变得特别多。这导致整体输出变得非常的不可控,如果想要做内容的话,很有可能因为不必要输出乱跑导致完全跑题。

比如,这是更改前的输出:

screenshot_on_b85m_by_flameshot_at_2025-04-27_16-12-04

这是更改后的输出:

screenshot_on_b85m_by_flameshot_at_2025-04-27_16-11-53

很明显更改前,输出的内容很干净很稳定,但更改后,就非常过分的自作多情了。

准确度也变得更差了,带着雨帽还能露出双马尾这种错误,在更新之前是没有的。

这玩意就是明显的「画蛇添足」


单个会话出图数量有上限

限流。

每次对话能输出的图片数量被限制到了20。

screenshot_on_b85m_by_flameshot_at_2025-04-23_22-27-29

玩不起了呗。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-15-39

但并不是精确的20个,触发条件不详。


某些场景下会只生成一张图,而不是之前的四张

screenshot_on_b85m_by_flameshot_at_2025-04-24_20-13-33

虽说是因为带输入中指定了「一个」。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-17-37

但是输入里如果带数字的话,有可能会被识别成一个。

screenshot_on_b85m_by_flameshot_at_2025-04-26_13-21-01

触发条件的细节不确定。

screenshot_on_b85m_by_flameshot_at_2025-04-24_21-44-17

好歹还是做了个最多一次20个的限制。


结论

线上工具用着就是这么难受。

这反而让我想起了10年前的某个工作内容,项目是在微信上做公众号,比起竞争对手的核心优势就在于不需要在手机上另装APP就可以做推送(说实话当年很难绕过安卓手机上的各种流氓应用互相杀进程,所以自己做APP死路一条),结果做了几年之后,微信大幅度砍了公众号的推送功能,导致整个项目都报废了。或许这辈子能有个机会写一个生涯回忆录写一些相关内容,但估计没有那个机会了。

The post 豆包“偷偷”“更新”文生图功能 first appeared on 石樱灯笼博客.

讲讲目前使用线上AI文字生成图片工具的局限性

2025年4月15日 22:55

我这是捅到人家的天花板了。

本文多图多视频。我研究了一下,bilibili的嵌入代码,在后面接autoplay=0这个参数时也能像youtube嵌入代码一样禁止自动播放……(破站怎么自己就懒得写上参数呢。我估计写前端播放界面的人都不在了吧)

(为了省事,下文中 关于 文字生成图片图片生成AI生成图片 等一系列同义词,均使用 文生图 这个词)


前言

是的这一阵子仍然很无聊的在折腾AI,主要是在瞎搞豆包的文字生成图片功能。

画画一直是我可望而不可及的能力,天生没有拿笔画画的能力,我最高也只能做到画几个简单的几何体素描,这还是小学一年级寒假的时候送到画画班学了一个月才会的东西。

再往上就感觉脑子里有个瘤一样。人类做不到自己想象不到的事情,而我很明确的想象不出来自己拿着笔画画的样子,最多也只是在3DS上玩一下 《Colors! 3D》 或者 《绘心教室》。

jpg-IMG_20150119_123255

jpg-HNI_0088

所以当有一个能出图的工具摆在眼前的时候,肯定是得当作工具好好尝试一下的。

上一篇文章中也说过了,线下AI文生图工具用不起,线上AI文生图工具不可靠。

只不过这次玩得有点多,我算是把 豆包的AI文生图天花板给捅


尝试用豆包文生图功能做漫画

现在我用AI文生图功能基本上只是想做叙事漫画,而之前文章《[原创漫画] 《生命,科技,灵魂,死亡》,以及制作感想》中也讲了,因为这玩意不是人,所以连续出图的连贯性完全没有保证。

第一个思路就是尽量让内容足够简单,这样在内容变化上能尽量保证主体变化不大,不会崩溃。

于是做了这么个玩意。

《[原创漫画] 工作》

只不过叙事结构实在是太过简单了。甚至都抽象不起来。


尝试用豆包 智能编辑 和 区域重绘 功能出图后插帧做动画

我之前想到过,使用智能编辑和区域重绘,一点一点做一个渐变的效果,然后在用 rife 插帧补成动画。

为此还专门撞到了 rife 的 插帧数量 bug 上了。只不过 rife 的原项目早就沉寂了。社区目前或是没人维护,或是一堆不会说人话的莫名其妙脚本小鬼。

这是两个在动画风格下的尝试结果:

《尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果》

《继续 尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果》

只能说效果非常的不好。rife只能根据两帧之间的差别出图,而动画是一个流畅的东西,在 智能编辑 和 区域重绘 这两个功能下根本没有流畅度可言。

我也尝试了用 NLE 的播放速度曲线,结果没啥效果。尤其是速度曲线需要做积分来确定播放时长,而我现在的脑子算个一元一次方程式都卡壳。


捅到豆包文生图2.0模型的天花板

(我猜这玩意叫2.0,因为我不知道这玩意到底叫啥)

我在思考过后,想了个不如干脆不用动漫风格,而是用写实风格,找个特定的明星脸去保证任务的连贯性。

然后就发现了个很有趣的现象: 当关键词足够多的时候,出图风格会回落 ,像是内存被站满了然后把整体模型下降一个级别以减少内存使用的现象。

具体回落顺序是:「人像摄影」>「电影写真」>「3D渲染」>「动漫」

screenshot_on_b85m_by_flameshot_at_2025-03-31_19-36-09

可以看出在一定关键字下,人脸输出还是比较稳定的,图像也比较像真人。

但是当继续增加关键词的时候,出图风格就会往下落。「人像摄影」和「电影写真」都是出真人照片,「3D渲染」就开始出类似建模一样的风格,甚至直接降级到「动漫」这个风格里。

screenshot_on_b85m_by_flameshot_at_2025-03-31_19-36-15

继续增加关键词的话,即使手动设定「3D渲染」也会落到「动漫」风格。

screenshot_on_b85m_by_flameshot_at_2025-03-31_21-35-27

这算是捅到豆包的文生图功能的天花板了。

于是只能继续简化关键词,这也就意味着要简化场景的复杂度。

在这个限制条件下,我做了这个视频

《[原创] Dump》

怎么说呢,场景实在是太过于简洁了。

只能说,在线上工具有如此限制的情况下,创作上限真的是极其有限。

这也是为什么我一直讨厌依赖线上工具的原因之一。


豆包文生图模型升级到3.0

这玩意还能升级我是没想到的,因为我一直不太明确,目前这些大厂搞这些产品的目的是什么。豆包的这个产品,明显在外部宣传上没跑过同类选手,在商业宣传上亏一大截。事实上我个人认为线上这些工具全部都在迷茫期,或许瞎搞才是正常状态。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-24-27

模型升级后,的确画质提升了非常多,前文中讲的 风格回落 问题基本就不会出现了(或许是服务器升级了内存上限?)。但就像我说的 我一直讨厌依赖线上工具 ,线上工具的变化在用户端是不可控的。

模型升级后网站把不少样例都更新了。说实话旧版模型我觉得有些样例图根本就生成不出来,所以新版出来的时候很多样例肉眼可见的是画质变差了。但由于新模型的确有提升,所以整体上还算是升级。尤其是那个文案超级长的只放在「精选」分类里的例子,看着的确搏人眼球。

screenshot_on_b85m_by_flameshot_at_2025-04-13_16-36-01

screenshot_on_b85m_by_flameshot_at_2025-04-04_19-11-32

模型升级后的优点

(注:内容具有时效性,随时间变化部分内容会失效)

首先是文字内容的命中率高了非常多。

同等文案旧模型与新模型的对比:

生成特定风格图片_realesrgan2x

生成特定风格图片-2555473994924546-20250413162847

旧模型不会画单元楼门,不会画角色与背景的比例,不会画角色与背景的相对角度。新模型虽然在比例上还是歪的,但是至少把意思表达出来了。

输出的最大变长也从 1024 升级到了 2048,绝大多数情况下不用再手动用 realesrgan 放大一遍了后再缩小到 1920×1080 了。

模型升级后的带来的新缺点

原本作为「属性入口」的关键词,现在被当作真实的文字关键词使用。

比如原本用来控制角色身高的关键词,现在成了猎奇玩意。

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-45-58

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-49-34

screenshot_on_b85m_by_flameshot_at_2025-04-07_23-52-43

总之目前模型下已经没法控制输出角色的身高了。

screenshot_on_b85m_by_flameshot_at_2025-04-11_22-06-26

然后是输出的角色现在都不能闭嘴不露齿笑,全部都只能张嘴傻笑了。

screenshot_on_b85m_by_flameshot_at_2025-04-07_00-10-03

悲伤必然流眼泪,伤心难过不哭不行。

screenshot_on_b85m_by_flameshot_at_2025-04-14_00-55-16

screenshot_on_b85m_by_flameshot_at_2025-04-14_00-57-24

然后不知道为什么,发箍 这个字段总被当作 光环

screenshot_on_b85m_by_flameshot_at_2025-04-13_19-41-01

screenshot_on_b85m_by_flameshot_at_2025-04-13_19-51-43

(莫不是模型是用 蔚蓝档案 跑出来的?)

模型升级前后依旧存在的缺点

和前一篇文章提到的问题一样,只要元素个体超过两个,相互关系就会崩。

  • 车是依旧不会开的。

screenshot_on_b85m_by_flameshot_at_2025-04-07_20-32-35

  • 马是不会骑的。

screenshot_on_b85m_by_flameshot_at_2025-04-12_15-31-16

  • 部分关键词的理解还是错的。

screenshot_on_b85m_by_flameshot_at_2025-04-07_13-57-29

  • 疑问表情的时候问号是画出来的。

生成动漫风格厨房图片-2994986069843458-20250414012836

  • 关键字屏蔽还是在的

screenshot_on_b85m_by_flameshot_at_2025-04-06_16-07-05

  • 多个对象场景下比例还是很容易崩的。

生成动漫风格图片-2988978288407810-20250413231900

  • 多个对象场景下,对象间关系很容易出错。

比如,我想让这个紫色少女站在橙色少女前面,站着的时候就没问题。

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-38-23

但只要橙色少女坐下,就没戏。

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-38-29

screenshot_on_b85m_by_flameshot_at_2025-04-11_20-39-30

更别说总能渲染出离奇玩意出来。

生成动漫风格图片-2860612677803010-20250411191734

地上那个大屁股是谁掉的?


参考图、智能编辑、区域重绘、擦除

讲了出图,也得讲一下改图。

擦除

擦除应该是最有用的功能,只不过豆包的这个擦除,抹啥糊啥。

原图:

生成动漫风格图片-2996429080838914-20250413233527

豆包擦除:

生成动漫风格图片-2996429080838914-20250413233211

百度擦除:

jpg-e1d68564eccf784c743295bb2fbbd76c

(百度出的结果是jpg的而且分辨率会被缩,基本上是一坨屎)

GIMP 克隆工具:

生成动漫风格图片-2996429080838914-20250413233209

而且很诡异的是,豆包的擦除会破坏原图非目标区域。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-41-49

百度就不用讨论了,输出的是JPG肯定毁得一塌糊涂。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-42-06

所以有擦除需要的时候能用传统工具还是用传统工具最好。

screenshot_on_b85m_by_flameshot_at_2025-04-13_23-43-23

参考图、智能编辑、区域重绘

参考图、智能编辑、区域重绘,这三个我就一起说了。

原本2.0模型的时候,这仨功能就不怎么好使。最大的感觉就像是,这三个玩意用的是一个比2.0劣质一点的模型,但还没有到达不可接受的差距。

尤其是2.0的时候,文生图的输出最大边长是1024,而 智能编辑 的最大边长却是 1312,对应16:9比例的话输出结果是 1312×736 这么个分辨率,直接放大到 1920×1080 的话是 1920×1077 或 1925×1080 。也太奇葩了。

用了智能编辑后不仅分辨率坏掉了,图像的精细度也会降一大截。

生成特定风格图片-1961225555338754-20250316194924

生成特定风格图片-1961225555338754-20250316195003

如果运气好的话,新图的角色可能会比旧图角色小一点,那样的花就用rembg把旧图角色抠出来,然后自己编辑,再贴到新图上。

动画模型还好一点,真实场景模型几乎烂到恐怖。尤其是现在模型是3.0的情况下,精细度差别能大到吓人。

这是3.0的文生图:

生成特定风格图片-2715236277751298-20250407223427

这是区域重绘,尝试在椅子上放一瓶可乐:

生成特定风格图片-2715236277751298-20250413154949

这是 参考图/智能编辑 想在空椅子上加个人:

生成特定风格图片-2715236277751298-20250413155332

纯正 伪人-模拟恐怖

事实上即使是抛开画质不谈,智能编辑本身就会严重丢失原图的信息量。

换杯饮料立刻不哭:

生成动漫风格图片-3001337865737730-20250414010459-1

换个地毯立刻开心:

生成动漫风格图片-2991379788847618-20250414010930-1

白天黑夜表情就变了:

图片风格设定-3043733434981378-20250414231405-1

甚至连东西都不会拿了。

图片风格与内容描述-3006221925573122-20250414013744-1

我文章开头说过想用智能编辑区域重绘做动画,如果用真实场景的话大概就是这么个效果:

尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果(三)

这里还有一个动漫效果的,所有元素的变形都太严重,根本没法看。

尝试使用「AI智能编辑」+「AI 补帧」制作一个少女变身效果(四)

文中最开头也说了,本身这玩意流畅度就够呛,再加上 智能编辑和区域重绘 的模型,就烂得非常的变型了。真实场景的伪人问题特别严重。

可以说在文生图是3.0的场景下, 智能编辑区域重绘 基本是没法用的。

扩图

这功能本来也没啥太大用,就是在部分不在意内容的场景下填补空白,比如视频封面图啥的。

只不过由于出图分辨率是固定的,所以 扩图 的同时还在 缩图

我曾想着或许可以靠反复扩图的方法,做一个绝命毒师结局的 Baby Blue 场景,结果,豆包的扩图一直往竖屏海报这个方向跑。

screenshot_on_b85m_by_flameshot_at_2025-04-08_22-00-03

想了多种办法调整之后

jpg-screenshot_a4ab1c79e10c4b187093e6fe35a8629c

重点目标被糊成一堆气泡,想要用来重复的边缘图形也糊成了抽象油彩。或许自己拿 GIMP 克隆工具自己图都更靠谱。


豆包应用

说完模型,说下豆包这玩意。

声明:我个人本身是很讨厌头条系的(现在可能叫做字节系?)。但相对于厌恶程度,头条系在我眼中最多只能排第三。

这玩意应该是有一个网页版,一个 Chrome/Edge/Safari 插件,一个 Windows/MacOS 浏览器,一个手机客户端。Chrome插件 和 Windows客户端我都试过了,正经人谁会用这玩意?退一步讲,哪个产品经理想出来专门做一个浏览器只为了跑一个网页?脑残的阿里吗?

手机APP我没有试过。

网页端则只有短音验证码登录、APP扫码登录 和 第三方登录。

但是没有强制登出所有其他已登录对话的功能。

screenshot_on_b85m_by_flameshot_at_2025-04-15_00-42-44

这就意味着假如哪天手机短信验证码泄露了,其他人就可以一直在他的界面上一直监视你的所有操作。

仅是安全性这一块就可以打0分了。


豆包模型背后的火山方舟

这玩意背靠的是头条系字节跳动旗下的 火山引擎

火山引擎这玩意想要登录进去可以说特别困难,页面的稳定性烂得出奇,大部分情况下都是后端API超时,跨域请求出错,前端条件判定出错,然后报错一大堆。可以说这玩意至少在商业场景下就是一坨屎。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-39-34

进去之后看到的就是一个山寨 阿里云/腾讯云 一样的界面。云服务供应商虽然都长得差不多,但是至少阿里腾讯的业务至少控制台每次都能正常登录。

说实话我一直以为豆包这娱乐性的APP大概是为了向公众展示技术实力的一个窗口,而其背后应该有更多的能提供更强更稳定的商业服务。

至少 稳定 这一块是没了。

而作为 更强 这一块呢?

文生图的付费接口仍然是旧版的2.0模型。

screenshot_on_b85m_by_flameshot_at_2025-04-12_22-38-10

付费服务比免费服务还烂,是超出我的想象的。

screenshot_on_b85m_by_flameshot_at_2025-04-11_22-06-44

这个输入接口甚至比百度AI的公开服务还烂,而出图质量甚至都没有上一个版本的豆包高,只有百度AI的水平。

而且和豆包以及其他国内平台一样,文生图功能都只有一个文字输入接口,非常的落后。(现在的文生图平台基本是以「正面」和「负面」两个文字输入接口存在的,「负面」输入可以保证输出结果中不存在你完全不想要的内容)

(有一种不愧是头条系的感觉,除了搞出致瘾性算法之外什么都搞得稀烂的样子)

至于其他产品,图文生视频这玩意目前就是搞笑的,屁用没有。你可以看我在B站做的这个视频合集:合集·用AI生成的视频也太离谱了,这玩意最多只能用来做搞笑段子。

screenshot_Shotcut_00_02_29_833

语音模型,开放业务只有声音复刻和同声传译。

文本模型,这玩意真的有人想要花钱 这玩意吗?用途会是啥啊?自己搞个假的 DeepSeek 搞分销?


结尾

反正目前这个AI水平,放在个人手中,仍然只是个玩具。线上服务基本上都是不靠谱不稳定随时跑偏做得稀烂还想捞钱;线下个人用户很难将业务稳定的部署,硬件软件都是坎。

尤其是我目前的确有几个AI编程的需求,就是根据已有的html文本,直接生成带锚链接的目录。这个需求我在 豆包 百度 copilot 下同时试了 bash node php python 三个语言,基本全部都是语法错误,基本都是瞎写的,正则语法都是错误的。狗屎一堆。

上一篇文章《是时候在我这里聊一下人工智能了》,除了一条有效评论之外,全是来刷AI的评论。

screenshot_on_b85m_by_flameshot_at_2025-04-08_13-21-07

诚然我已知现在人的确没几个能读得下去文字,更别说是我写的这种枯燥无味的长篇大论。但是人机刷评论这操作属实是有些人放弃做人了,毕竟独立博客不需要刷活跃度来提升展示率,这些人机刷的这些玩意属实是真把脑子丢了塞了个热度算法塞自己头骨里了。

只能说互联网真的退潮了。「潮水褪去,才知道谁在裸泳。」结果发现在水里泡着的全都没穿裤子,大家都在那甩小屌,那就无所谓了。

前几年我的某个亲戚嚷嚷着要培养自己家还在上小学的孙子搞黑客,现在又要做直播,我就等他家啥时候搞AI了。

The post 讲讲目前使用线上AI文字生成图片工具的局限性 first appeared on 石樱灯笼博客.
Received before yesterday

如何正确拉取超大体积的git项目——开发小技巧

2025年5月14日 15:48

最近遇到一个体积相当大的仓库(40GB+),结果在安利给群内小伙伴时,很多人遇到了直接使用 git clone 克隆仓库到本地时,对本地网络的稳定性有巨大挑战,一旦网络波动导致传输中断,就只能从头下载。
很多人拉项目时习惯git clone一把梭哈,这并不是一个很好的习惯,众所周知国内访问github属于玄学,而且有些项目非常大,搞不好需要好几个小时才能拉取完,长时间+不稳定的网络,很容易出意外。本文就是介绍两种应对超大体积项目的拉取的办法「Git LFS」和「Git fetch」。


Git 的 git clone 命令本身是不直接支持断点续传的,git clone 本质上是创建一个新仓库,并一次性拉取远程所有数据(包括提交历史、分支、标签等)。如果中途中断本地目录会处于不完整状态,直接重试 git clone 会失败,如果你退出终端本地目录也会被清空。

使用 Git Large File Storage(Git LFS)

简单介绍一下 Git LFS

Git Large File Storage(Git LFS)是一个用于管理大型文件的Git扩展工具,旨在解决Git原生对大文件支持不足的问题。

Git LFS 优点

  • Git LFS用轻量级文本指针(如oid sha256:…)替换实际大文件,避免仓库臃肿。
  • 大文件内容存储在专用服务器(如GitHub LFS、块储存、自建储存、CDN),仅按需下载。
  • 支持单个文件GB级别存储,突破Git对文件大小的限制。(比如 github 是单文件小于100MB,单文件大于50MB会出现警告)
  • 因为大文件实际是分离储存的,可以优化拉取速度。
  • 安装Git LFS 并配置好后,日常 git 操作时,几乎是无感的,Git LFS 会自动处理大文件。

Git LFS 缺点

  • 需要项目创建者配合从一开始就使用 Git LFS,如果项目没有采用,对于想要克隆拉取项目的人是没有办法去使用 Git LFS 的。
  • 额外的大文件储存和下载都是需要开发者额外掏钱的,像是GitHub就只有10 GiB的免费空间和流量可用,超过的部分需要额外收费。(如果你是pth之类的AI模型文件,huggingface之类的平台给了免费的 LFS 空间)

不要 git clone 一把梭哈,改用 git fetch 分步拉取

简单介绍一下 git fetch 分步拉取

Git LFS 更多面对的是项目中部分文件体积很大的情况,比如Unity项目中的.asset文件、PSD源文件、CSV数据集。但还有一种情况,项目中每个文件体积都不大,可能只有几兆到十几兆,但是项目中文件数量极多,几百上千个,加到一起后整个项目体积也到了 GB 规模。这个时候更适合分步拉取的方式。

和 git clone 相比 git fetch 的优势

  • git fetch 基于 Git 对象模型,天然支持断点续传。
  • 即使多次中断,只要本地 .git 目录未损坏,均可通过反复执行 git fetch 逐步补全数据。
  • 如果中断期间远程仓库新增了提交,git fetch 会同时下载新增内容和未完成的旧内容,最终保持本地与远程一致。

和 git clone 相比 git fetch 的缺点

除了操作稍微多了几个步骤,没任何额外的缺点。

git fetch 分布拉取的方法

  1. 先手动创建空仓库并构建.git文件
mkdir your-repo && cd your-repo
git init
git remote add origin https://github.com/user/repo.git
  1. 分步拉取数据
git fetch origin --progress  # 如果中间传输中断,就在目录下再执行一次这个命令即可。
  1. 等待拉取完毕(以下仅为举例,请根据实现终端显示为准),这时候项目所有内容都会被打包在.git/objects/pack目录下的.pack文件内。
Resolving deltas: 100% (9999/9999), done.
From https://github.com/user/repo.git
 * [new branch]      master     -> origin/master
 * [new tag]         v1.0       -> v1.0
 * [new tag]         v1.1       -> v1.1
 * [new tag]         v1.2       -> v1.2
 * [new tag]         v2.0       -> v2.0
 * [new tag]         v2.1       -> v2.1
 * [new tag]         v2.2       -> v2.2
 * [new tag]         v2.3       -> v2.3
 * [new tag]         v2.4       -> v2.4
 * [new tag]         v3.0       -> v3.0
  1. 将需要的分支检出,比如我们检出 master 主分支。
git checkout master
  1. 其他优化建议

使用浅克隆减少首次下载量,比如只拉取最新分支

git clone --depth 1 https://github.com/user/repo.git

之后再补全历史(或者就干脆不补全,节约点空间)

git fetch --unshallow

总结

总的来说 Git LFS 主要是应对项目中出现几个巨大体积文件的情况,git fetch 主要是应对一次开机无法完成下载的超大型仓库或不稳定网络环境,比直接 git clone 一把梭哈更加灵活。

PS:顺带提一嘴,如果多次中断和重新拉取,可能会在.git/objects/pack目录下出现很多个.pack文件。如果需要清理的的话,在项目目录下执行git gc --auto
再PS:不用在意.pack文件的巨大体积,因为工作目录下你看到的具体文件,是通过硬链接、符号链接构建的,工作目录内的文件和 .pack 中的对象共享同一份数据,并不会真实占用双倍物理空间。实际占用大概是1.2~1.3倍空间,因为.pack文件还是有一定的压缩的。

The post 如何正确拉取超大体积的git项目——开发小技巧 appeared first on 秋风于渭水.

我在steemit平台上写文章的原因

2024年11月26日 23:38

过去几年里,我除了维护几个 WordPress 博客外,还经常在 Steemit 上写博客。我更喜欢在 Steemit 上写作,因为它有以下几个独特的优势:

区块链存储内容

在 Steemit 上,所有的帖子和评论都会被永久存储在区块链上。这意味着内容不仅持久存在,还能抵抗丢失或审查。与传统平台不同,这些平台的内容可能因人为删除或服务器故障而丢失,而区块链的去中心化特性确保了我的作品始终可以访问。

图片上传便捷

Steemit 的编辑器大大简化了图片上传的过程。我只需将图片直接粘贴到编辑器中,它就能无缝地嵌入到文章中。这种无阻碍的操作比需要手动上传或依赖外部图床的方式更加省时省力。

搜索引擎可见性更高

在 Steemit 上发布的文章通常在搜索引擎中排名更高。这可能得益于 Steemit 的域名权重和区块链存储内容的公开可见性,这让我的作品能够触及更广泛的受众,提升了内容的曝光率。

获取创作和点赞奖励

Steemit 独特的奖励机制让我通过社区点赞赚取 STEEM 代币和 STEEM Power。这些奖励为我的内容带来了实际价值,使得在 Steemit 上写博客不仅在创作上令人满足,也在经济上具有回报。这种激励机制鼓励优质内容的产生,同时也促进了志趣相投的社区之间的互动。

英文:Why I like to Blog on Steemit?

whale-300x200 我在steemit平台上写文章的原因 STEEM 区块链 SteemIt 区块链 资讯

Steem 坐火箭🚀!

本文一共 443 个汉字, 你数一下对不对.
我在steemit平台上写文章的原因. (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c 我在steemit平台上写文章的原因 STEEM 区块链 SteemIt 区块链 资讯
The post 我在steemit平台上写文章的原因 first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  2. LOGO 海龟作画 系列三 递归画一个国际象棋棋盘 今天我们要来讲一讲递归. 递归就是函数自己调用自己, 我们可以定义一个过程, 然后这只海龟不停的画, 结束的时候再调用自身再继续画. 再次调用的时候参数变化了, 至到参数满足一定的条件则停止. 比如 下面定义的这个过程可以用来画一个实现的正方形. TO FK :B IF :B>15 ;...
  3. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  4. 有个兄弟姐妹是件很好的事情 越来越觉得两男孩子真心好. 好处有: 两孩子年纪相仿: 我家老大6个月的时候 媳妇一不小心意外怀孕了, 这才有了老二. 最开始两人一起带很累, 但是并快乐着, 现在两娃可以兴趣一样 可以玩到一起, 一起成长. 老大的衣服鞋子可以给老二穿哈, 不浪费. 玩具可以一起玩, 但是.....
  5. STEEMIT 简易SP代理工具 当前, 加入STEEMIT CN区低保银行的一共有40个人, 一共代理给 @justyy 银行大约 6400 SP. 好处是每天能收利息 (14.6% 年化率) 并且能获得至少一次的双倍点赞. 代理的方式是通过 steemlogin.com 但是很多人都搞错,...
  6. 《Steem 指南》之 justyy 在线工具与 API 系列 – 查看被删除的帖子或评论 前言 大家都知道, STEEM上的一言一行都是会被记录在STEEM区块链上的, 哪怕是7天内可以修改(或者删除)文章或者评论, 修改的记录也都是会被忠实的记录的. 不相信? 这个在线工具就可以做到把删除过的评论给列出来. 工具地址 中文: Steemit 查看被删除的评论 英文: Steemit Deleted-Comments Checker...
  7. 你给SteemIt中文微信群拖后腿了么? 这年头不缺算法, 就缺数据. 这两天花了很多时间在整API上, 整完之后自己用了一下还觉得真是挺方便的. 今天就突然想看一看自己是否给大家拖后腿了, 于是调用每日中文区微信群排行榜单的API, 刷刷拿着 NodeJs 练手: 1 2 3 4 5 6...
  8. 在英国的第13个圣诞节 Merry Christmas 2017! 2017, 这是我在英国的第13年. 从2004年来, 每年圣诞节都是在英国渡过的. 最开始几年担心过节了商店没开门在家饿死所以早早屯了年货过年. 在英国感觉时间过得特别快, 也许和冬天天黑得早有关吧, 一天黑, 除了大伦敦和其它几个大城市, 其它小城镇几乎没有夜生活, 岁月静好. 这几年日子稍微好过些, 圣诞节总是要吃火鸡肉. 媳妇做了西式的晚餐, 烤箱烤熟了然后放上卤肉酱,...

我在STEEM区块链上办的银行业务之: SP租赁服务

2024年11月2日 06:29

rent-steem-power 我在STEEM区块链上办的银行业务之: SP租赁服务 STEEM 区块链 SteemIt 互联网 加密货币 区块链 程序员 被动收入 资讯

STEEM能量出租

我打算写几篇文章来分享这些年来我在STEEM区块链上的一些有趣玩法。我是在2016年8月20日首次注册STEEM账号 @justyy 的(至今已有8.2年),后来发现区块链真的很有趣,特别适合程序员,因为它开放、透明、强大并且充满自由。

我还有一个外号“行长”,这个称号源于我在STEEM上创建了第一个银行。最初,我的业务是收取存款并支付利息,后来逐渐扩展到了代币兑换服务等。存折腾,用爱发电,(扣掉每个月昂贵的服务器运维成本)基本不挣钱,就交个朋友.jpg

在2018年2月25日(至今6.7年)我成为了STEEM见证人/Witness,也就是出块打包的矿工。一路走来,从2020年3月18日左右开始进入全球前20名,并一直保持未掉出前20,甚至长期位居STEEM见证人排行榜的首位,目前排名第二。STEEM区块链采用的共识算法是DPOS,即 Delegated Proof of Stake / 委托权益证明算法。

steem-witness-table-2024-11-01-scaled 我在STEEM区块链上办的银行业务之: SP租赁服务 STEEM 区块链 SteemIt 互联网 加密货币 区块链 程序员 被动收入 资讯

STEEM区块链见证人排名表

今天我要分享的是今年8月1日左右我推出的一项服务。当时我在村里跑步,一边跑步一边构思。回家后,我当天加隔天写好了代码,测试完毕后上线。

SP租赁服务

在STEEM区块链上,有STEEM和SBD两种代币/Token,SBD(Steem Dollar)是锚定1美元的代币,而STEEM目前约值0.16美元。区块链上的代币主要用于激励,例如奖励矿工、点赞文章获得收益等。

STEEM可以锁定(Stake)成Steem Power(解锁需要4周)。锁定的能量越多,账号的权力越大,比如投票权和点赞能力。我的SP租赁服务的原理非常简单:用户先将利息(STEEM)转账到账号@rentsp,并在备注(MEMO)中注明租赁天数。程序会计算所需的SP并自动借给指定账号。查看当前的借款人

这是预付利息的形式,用户先支付利息,区块链上没有退款功能,资金到账后不可逆转。当SP代理(租出)后,借款人仅在取消代理前拥有使用权。等到期后,程序会自动收回SP代理。这遵循STEEM区块链的规则(代码即法律,Code is Law),因此不必担心用户卷款跑路。

用户A将SP借给用户B,用户B仅拥有SP的使用权。用户A可以随时收回借出的SP,完全不必担心资金的丢失。这就好比用户A把一只会下蛋的母鸡借给用户B,用户B在租借期间只能获取母鸡下的蛋,而用户A随时可以收回这只母鸡。

由于STEEM目前没有智能合约,理论上我是可以卷款跑路的,但不值得为了些许利息而影响长期信用。我在STEEM上活跃多年,各项指标如声誉(Reputation)、见证人排名和STEEM POWER(可直接借出的资金)等都较强。

上线三个月来,该服务累计使用49次,总共收取利息XXXX个STEEM。没多少,用爱发电/折腾。这算不上是被动收入,因为每隔几天才会有一单,好在不需要太多的维护。

steem-power-renting 我在STEEM区块链上办的银行业务之: SP租赁服务 STEEM 区块链 SteemIt 互联网 加密货币 区块链 程序员 被动收入 资讯

SP租赁服务记录

有兴趣的可以查看详情:STEEM区块链SP租赁服务

steem-power-renting-tool 我在STEEM区块链上办的银行业务之: SP租赁服务 STEEM 区块链 SteemIt 互联网 加密货币 区块链 程序员 被动收入 资讯

SP租赁服务估计

我在STEEM区块链上办的银行业务

whale-300x200 我在STEEM区块链上办的银行业务之: SP租赁服务 STEEM 区块链 SteemIt 互联网 加密货币 区块链 程序员 被动收入 资讯

Steem 坐火箭🚀!

本文一共 940 个汉字, 你数一下对不对.
我在STEEM区块链上办的银行业务之: SP租赁服务. (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c 我在STEEM区块链上办的银行业务之: SP租赁服务 STEEM 区块链 SteemIt 互联网 加密货币 区块链 程序员 被动收入 资讯
The post 我在STEEM区块链上办的银行业务之: SP租赁服务 first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  2. LOGO 海龟作画 系列三 递归画一个国际象棋棋盘 今天我们要来讲一讲递归. 递归就是函数自己调用自己, 我们可以定义一个过程, 然后这只海龟不停的画, 结束的时候再调用自身再继续画. 再次调用的时候参数变化了, 至到参数满足一定的条件则停止. 比如 下面定义的这个过程可以用来画一个实现的正方形. TO FK :B IF :B>15 ;...
  3. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  4. 你给SteemIt中文微信群拖后腿了么? 这年头不缺算法, 就缺数据. 这两天花了很多时间在整API上, 整完之后自己用了一下还觉得真是挺方便的. 今天就突然想看一看自己是否给大家拖后腿了, 于是调用每日中文区微信群排行榜单的API, 刷刷拿着 NodeJs 练手: 1 2 3 4 5 6...
  5. STEEMIT 简易SP代理工具 当前, 加入STEEMIT CN区低保银行的一共有40个人, 一共代理给 @justyy 银行大约 6400 SP. 好处是每天能收利息 (14.6% 年化率) 并且能获得至少一次的双倍点赞. 代理的方式是通过 steemlogin.com 但是很多人都搞错,...
  6. SteemIt 高级定制微信文章列表 RSS/API/阅读器 v2.0 The Advanced Wechat Group Posts Feed/API/Reader v2.0 Abstract: I have added five parameters to the...
  7. 英国房子的EPC节能报告(Energe/Efficiency Performance Certificate) EPC (Energe/Efficiency Performance Certificate) 是英国房子的节能报告, 法律上规定, 每个房子都必须要有一个EPC报告, 报告的有效期为十年. 房东在把房子出租或者想卖房的时候, 这个EPC就必须有效, 在一些情况下 比如出租房子的时候, 这个EPC报告还必须符合一些最低标准, 比如房子必须满足 F档(类似及格线)...
  8. 有个兄弟姐妹是件很好的事情 越来越觉得两男孩子真心好. 好处有: 两孩子年纪相仿: 我家老大6个月的时候 媳妇一不小心意外怀孕了, 这才有了老二. 最开始两人一起带很累, 但是并快乐着, 现在两娃可以兴趣一样 可以玩到一起, 一起成长. 老大的衣服鞋子可以给老二穿哈, 不浪费. 玩具可以一起玩, 但是.....

用WinMerge进行文件夹比较时忽略git目录的方法

2024年9月30日 16:35

在选择比较目录目录的对话框上,点击左下方【Folder:filter/文件夹:过滤器】处的【Select…/选择】按钮,然后在【File Filters/文件过滤器】选项卡中选中【Ignore git】,确定,即可。
进入比较后,这一项也有办法解决。点击菜单【Tools/工具】->【Filters/过滤器】后,同样在【File Filters/文件过滤器】选项卡中选中【Ignore git】,确定,然后刷新重新比较,亦可。


  • (1):陆行鸟迷宫系列版权和开发都是史克威尔,但系列的前两作是CHUNSOFT的社长中村作监督,所以有时也被归类进不可思议迷宫系列中
  • (2):其实两周后的决赛李明又喂了一次屎,不过那场比赛不如这场有戏剧性。
  • (3):进第二个球的那个赖特后来在假A沈阳队踢过。
  • (4):饭店里并没有天津本地品牌“五星”
  • (5):章鱼
  • (6):海胆
  • (7):不像《侍魂》和《天外魔境》那样还需要把武器拾回来,而是每个人的武器都能飞去来。

Svelte和Sapper实战

2024年7月7日 00:31

评分

⭐⭐⭐⭐⭐ ⭐⭐⭐ 8 / 10

评论

川流的作者李大毛没有猫在群里招募为新网站写前端的人,我报名后了解到其技术栈是 Serverless 和 Svelte 和 SvelteKit。我大约在几年前在 daily.dev 上常看到大家拿 Svelte 与 React 和 VUE 对比,但也有一些认为 Svelte 也有其不足,由于当时其位列前端三大方案之后,我未作细节关注。

这几年我都没有涉足编程技术,在大体尝试 Svelte 官方例子后,得知 SvelteKit 就是之前的 Sapper,让我想到了这本书。虽然 Svelte 出现的比较晚,在营销方面也没有很多突破,但它的思路确实比虚拟 DOM 更新颖,服务端编译也为它带来了比较优势——更小的打包尺寸和更好的性能。

我相信系统性优势是可以扩大市场占有率的,同时,我也认识到 jQuery 存在的时间比想象的要长。

说到此忍不住吐槽国内的技术生态,今日还看到v2ex一个帖子,说国内技术环境常年不变 centos7 java1.8 mysql 5.7,其实不全是,常年不变的算不上以技术为竞争壁垒的公司。仅在计算机系统的软件层面构建竞争壁垒是非常困难的事情。国内某些“厂”,之所以常年使用固定的开发环境,是因为它赚钱核心并不在此(使用更新的开发平台、更新版本的编程语言、性能更高的数据库),也不想在软件研发上作小白鼠做无谓的投入。这是一种很油滑作呕的策略,只从外部吸收索取,不回报,拿着多个开源项目,自己改吧改吧生成自主掌握技术。也许商业上算成功的,但对技术社区没有实质贡献。

这本书的可读之处,不仅在于它对 Svelte 体系的介绍,更在于作者的深厚功力,可以学到一个工作三四十年的技术大拿的思维方式和对技术周期的认知。

Svelte 是否是 React 的颠覆者呢,从影响力上算不上,但它确实是一种 Smart 的范式,喜欢的人自然喜欢,我也见过太多的新技术,但 Svelte 来说,它不仅仅是前端框架中一个新的 VUE。

EverEdit

2024年4月17日 12:44

推荐理由

EverEdit 的作者自 2008 年开始构思开发,前身叫做 MegaxEdit,其编辑器组件是完全自研的,并不是 Scintilla 之类。

我使用 EverEdit 超过十年,它启动迅速,完全满足我对于文本编辑的需求。

在此之前,我一直使用的是一款日本的文本编辑器,也给它提过不少关键特性的需求,如超长行编辑,CSV 处理,编辑器核心改进等,但它日益高昂的售价变得难以接受,现在的终身价是 3000 元,年价 700 元。

也用过另一款来自澳洲的优秀编辑器,但它常提示你购买授权,其售价为 700 元 / 3 年。

这几款的特点都是可通过脚本扩展以满足各种编辑需求,但论扩展的方便程度,还属 EverEdit 最简单。

  1. 它满足任意需求。因为它支持任意扩展,借助 Windows COM 机制,可以实现所有需求。

    一旦熟悉扩展方法后,你可以在几分钟之类编写扩展并立即执行。有一种编辑器也满足这样的设计,即 Emacs,但 lisp 生态不如 js,中文世界能熟练使用 lisp 和 emacs 函数的人非常少。

  2. 它支持所有支持 Windows Script Host 技术的编程语言,都可以编写扩展,包括 JScript、VBScript、Perl、Python、Ruby、Lua、Tcl、PHP、XML、Delphi 等,以及更多我没有探索过的语言。

  3. 它也适合作家、写作者、所有需要文本处理的人,而不只是程序员、处理数据的人和办公室打工人。

  4. 它对中文支持的非常好,且可针对中文单独设置字体。

  5. 最最关键的是,它有着一个非常友好的终生授权价:158 元。在这个价格上,它提供了相同甚至更优秀的功能,你可以终生授权使用正版软件,代价只有日本那款的十八分之一。

优惠

购买途径:通过 联系我 购买。

  • 价格1:10% 折扣价,交个朋友。
  • 价格2:购买送免费咨询。你也可以和我一样,对这种国人的基础软件研发表示支持,以原价购买。你可以添加我的QQ,我将以我的使用和编程经验向你提供该软件使用的免费咨询服务。

最近的特性预告

它已支持内置 IE,能嵌入 IE Web 应用。

它即将支持 Edge 的 WebView,这样很容易在其中嵌入使用现代应用,而免去上下文切换开销。

使用ffmpeg处理YCbCr422(YUV422-10bit)格式的视频信号

2024年8月4日 15:57

最近搞的项目跟视频采集卡有关。客户的要求是采集的时候视频卡信号要设成YCbCr42210bit格式,从板卡上采集到的图像要将这个原始格式不压缩直接保存成mov文件。另外要能读取自己保存的mov文件,在板卡上播放。
然后我的猪队友同事们给我甩来两个课题:
一是没用明白windows的SinkWriter,非说人家巨硬不支持这种yuv42210bit的保存。
二是视频的连续播放,只能把mov文件拆成一帧一帧,把原始数据喂给板卡。但是之前抄的例子是8bityuv,10bit的不会弄,而先转成bmp再转yuv422的话误差太大。

这一看就不是我能手搓出来的事儿,跟客户申请之后,客户表示可以用ffmpeg的命令行(因为GPL,不能用库的方式使用)。
于是我要处理的两个问题如下:
(一)将YUV422-10bit的原始数据(raw)保存成mov
(二)从自己保存的mov中抽取每一帧的原始数据。

一番搜索之下终于给对付上了。这个格式就挺恶心,ffmpeg的官网更恶心。官网上洋洋洒洒50章,每个参数都说到了,例子却寥寥无几,专有名词一大堆,给人一种生人勿进的的错觉。

将yuv422-10bit的原始数据转成非压缩mov

  • 命令行:
  • ffmpeg -f image2pipe \
           -frame_size 5529600 \
           -vcodec v210 \
           -pix_fmt yuv422p10le \
           -s 1920x1080 \
           -r 60000/1001 \
           -i fromcard.raw \
           -c:v v210 \
           -an -sn \
           result.mov
    

    逐个解释一下各参数的设置

  • -f image2pipe
  • 输入文件的format。这里的format是ffmpeg的demuxer的格式,可以通过ffmpeg -demuxers进行查看。输入原始数据的时候本来应该用rawvideo。但是ffmpeg在处理yuv42210p的原始数据的时候有一个非常奇怪的bug:在计算每一帧数据空间的时候,ffmpeg认为一帧数据的大小是宽*高*4。但是yuv42210p系列的格式,每16个byte里包括6个像素点的信息而不是4个,这就造成了用rawvideo生成的图像会丢失1/4的帧的奇怪现象。ffmpge的官网上曾经记录过这个issue,貌似他们没改好啊。我的这个解决办法实际是在issue的回复里找到的。image2pipe是一种通用的流格式,这里利用了它必须指定帧宽的特性。

  • -frame_size 5529600
  • 与image2pipe配合使用,指定每一帧的大小。5529600=1920x1080x16/6,其余分辨率自己算。注意如果raw不能被这个size整除,会报成信道不足的奇怪错误。

  • -vcodec v210
  • 输入使用的解码器。可以大致理解为YCbCr42210bit≈yuv422p10≈v210。v210就是这种格式的FCC码。

  • -pix_fmt yuv422p10le
  • 输入文件的图形格式,yuv422p10le使用16个字节(128bit)描述相邻的6个像素点,并且每32bit按照小字节序反转。反正就是搞清板卡设置的格式,按是否是小端字节序来觉得是否加最后面的“le”

  • -s 1920×1080
  • 输入图像的分辨率

  • -r 60000/1001
  • 相当于帧率(fps)。如果生成的帧率是整数,可以直接写。但如果帧率是小数,比如59.94,就要写成timescale/duration的形式。

  • -i fromcard.raw
  • 输入文件。我这里是把所有的帧存到了一起,放在同一文件里。

  • -c:v v210
  • 输出文件的视频编码器。因为这个参是要设输出文件,所以一定要放在-i的后面。

  • -an
  • 无音频流。

  • -sn
  • 无字幕流。

  • result.mov
  • 输出文件。

    如果需要存成隔行信号的文件,要在-i后面加一组参

    -vf tinterlace=interleave_top,fieldorder=tff
    

    顶场底场/奇数先偶数先其实有4种排列组合。但是自己编自己解,FFMPEG都能搞定,就不具体说明区别了。

    从mov中抽取每一帧的原始数据

  • 命令行:
  • ffmpeg -i input.mov -c:v v210 frame_%04d.raw
    

    同样逐个参数解释:

  • -i input.mov
  • 输入的mov文件。

  • -c:v v210
  • 输出文件的图像编码格式。与之前相同。其实这个参数是无视输入格式本身的。如果是本篇中的例子,输入与输出的图像相同,那就没有产生转换;如果不同,则ffmpeg会自动将原始格式转为这个参指定的图像编码格式,非常智能。

  • frame_%04d.raw
  • 输出文件。ffmpeg是根据输出文件的扩展名来自动识别输出格式的。想要原始数据,就必须指定成.raw为扩展名。如果不加%d,ffmpeg就会把所有帧存成一大坨文件保存;加了%d,就是逐帧分开保存。

    如果上面生成了隔行文件,那么这里也要增加一组参数

    -filter:v yadif=1

    否则解出来的帧数就会少一半。

    搞定!


    • (1):不像《侍魂》和《天外魔境》那样还需要把武器拾回来,而是每个人的武器都能飞去来。
    ❌