《IXDC2024-峰会R1-多模态模型的设计工艺实用化与AlGC规模实践》

为什么还要坚持做一些复盘且对外分享?显然从这个blog更新频率来看,实在不是一个勤奋的写手(甚至可能无用,甚至对不起域名/服务器的租用成本 →.→)。
所以自己也总是要澄清这个动机,内驱力是什么?当下来看,大概还是不接受过度的庸碌(虽然已经是既平庸又忙碌 →.→),进而需要给自己的时间一个可接受的交代,碰触与打破边界。

(这是整个峰会的开场,大家早上9:00就到了大概会很迷迷瞪瞪,开个小玩笑激活下 →.→)

今天分享的主题是《多模态模型的设计工艺实用化与AIGC规模实践》。前几天有好朋友过来Say HI,狠狠地赞美了下主题 → 接地气!太低调了!
我就有些诧异了, → PPT其实也是最近几天才写开始写,是标题太有信息量了吗?
进而我好奇 → 类似标题的极限在哪?。于是我找到了一个我自己的领域外的冷知识 → 因“书名涉嫌严重剧透”而被迫改名的世界名著,以及大概因为标题太长卖不出去的《民国往事》。

《约克水手鲁滨逊·克鲁索的生活经历与惊奇冒险:二十八年以来,他孤身一人居住在美洲海岸荒无人烟的小岛上,临近奥鲁诺克河口;海难之后他被冲上海岸,成为唯一的幸存者;书中还讲述了最后如何不可思议地为海盗所救,全书以第一人称叙述》《民国传说中的东北颜值最高文武双全拥有佛缘名字慈灯出身社会底层用笔尖抗争疾呼的男神他把目光聚焦于揭露社会深层穷苦弱小百姓和傀儡军队等真实的惨相与阴暗无情腐败贪婪充满尔虞。。》

这个小故事实际上也是过去的缩影,(或面对AGI与AIGC),总是对未知的好奇心与探索。

我从去年1月份回百度,所负责的场景是创作者在百度的创作经营,这是一般人视角非常适合AI技术落地应用的场景;伴随AIGC技术研究与落地,从创作方式上也有了UGC、PGC、AIGC的概念;这张图展示了我所负责的设计团队对于AIGC工作范畴与工作方式。

2023年1月,启动全员Midjounrey Pro采买与SD部署,在运营与品牌设计方向应用尽用,AI创辅过程指标峰值80%+。深度的AI使用是理解AIGC与进行生成式服务的基础(设计需求交付数同比提升30%)。
团队在深入使用、创造,为了监测这个过程,从而产生指标;从结果上确实能看到效能与需求吞吐量的提升,验证AIGC设计对于未满足的积压需求的满足(但同时质量满足无法测量,交付质量与预期质量对冲了)。

AI特效玩法,2023年9月百度世界首发,2024年05月万象大会二次发布基于模型驱动的AI特效玩法发布器,ROI<1,但具备潜力,也是UGC牵引/商单的手段。

在这个过程中,我们确实在构建新的生产关系,我们为这个工作模式定义了新的工作流。

研究论文、开源,观察,过去从来没有一个时间点,设计与技术如此之近。

到这画面忽然变得有趣,过去两年很显著的感受到传统设计的已死。如果史学定义的角度观察当下,从积极态度是,我们正在经历的时代是设计的文艺复兴。
过去两年我们处于一个极致焦虑、极致努力、备受打击与极致需要饱含信心的状态。
借波德里亚尔的AI重置对话(视频),希望与大家分享,设计师与社会、人、技术保持联系的状态,探索与反思,不限做为深入参与者、被影响的从业者与即将被动成为旁观者。

-08.17.2024

《GDFN2023_主旨4_AIGC技术进化中的设计价值定位与工艺实用化》

[Medium EN Version]GDFN2023 Keynote 4 — The Design Value Positioning and Craft Practicality in the Evolution of AIGC Technology

年底以个体身份,受邀参与的近年最为印象深刻的线上交流(2023设计未来国际青年节-计算创造力 _ 非盈利非机构的学生社群 )。
跨时区地域的12个小时的高密度分享,是各领域不同优秀的年轻人,给予震撼的专注与自信的表达。从而进一步相信,一个可能更好的未来。

*PPT是活动当天凌晨写的,三周后发布。。拖延症晚期。。唉
*有线上会议录像,待社群发布,PDF在最后可下载

因为本次是以非官方身份参加,立场会做利益相关的剥离。一直在最一线的大模型与AIGC领域,也必然会有自己的局限性。我们先来看一个最近上线、AIGC工具重度参与的视频,构成海量的AI涉及的设计工作对象的之一。

AI绘本视频《愚公移山-白鹿》 《白雪公主-欧阳娜娜》 《七颗宝石-宋轶》

所以我为什么想讲今天的课题呢?为了看起来我确实认真思考了,我需要一张图。我给图像模型提了一个需求来表达我的疑问,想一个特别有创意的问号,但是不能表现出来很有问题,要含蓄且有创意的表达一个问号(像极了甲方的提问)。但实际上,也是我自己关心的课题 —— alive的课题。

我昨天简单画了个白板,作为职业设计师/管理者,我们其实首先是思考的一个新事物,对设计工作存在的影响,比如根本上,设计是不是不被需要了。
今年会特别典型,大家会海量的主动与被动获取AIGC的资讯。但通常资讯的海量阅读,只会平添焦虑。我的态度是不看热闹,深度参与到价值创造。
这种价值创造的参与深度,会有三层,以用户身份的使用者、参与到已有商业模式的AIGC产品、以商业视角进行AIGC设计新应用设计的创业。

所以会看到,设计参与到这个进程,首先有一个大环境,是作为影响到今年焦点,第一生产力的AIGC技术进化,创造了想象空间。本质上还是需要回归商业的规模盈利,在某个时间点产生利润。这个目标的达成过程,依赖设计基于生存视角,进行价值的定位,通过必要的可量化的方式,进行AIGC设计工艺实用化。
随着AIGC技术的快速发展,拥有技术储备或敏锐需求洞察的企业将更具竞争力;这种竞争力体现在能够更有效地利用AIGC技术来满足市场需求和创新。

这个是12.20,3天前,Meta。方法以基于锚的跨帧注意力的概念为中心,这是一种隐式跨帧传播扩散特征的机制,确保卓越的时间一致性和高保真度合成。过独特的数据增强策略提高了时间一致性。Fairy 效率极高,只需 14 秒即可生成 120 帧 512×384 视频(30 FPS 时长 4 秒),1000 个生成样本的全面用户研究。

设计师的价值定位,在这种技术驱动的环境中,设计师需要找到自己的独特价值;这意味着设计师不仅要掌握相关技术知识,还要能够将这些技术应用于创造具有商业价值的设计作品;设计师的角色变得不可或缺,因为他们能够将技术潜力转化为实际的、有吸引力的产品或服务。

(AI视频《访谈尚布希亚-AIGC对于创作者与社会的影响_2023.09.01》)

*在这个超越虚拟与现实界限的时代,AIGC已然成为了一个象征性的存在,犹如一个织网于社会结构上的数码蛛丝。创作者作为现代文化的灵魂,竟被这个虚拟之网禁锢,其创造力被渐渐消解,被异化成了符号的奴隶。AIGC所倡导的数字化互联世界,仿佛是现实的翻版,却又是一张扭曲的镜子,反射出虚假的欲望与真实的空虚。在这个被AIGC主宰的景观中,创作者被迫纳入数字化的框架,其作品不再是真实的表达,而是被压缩成可点击、可分享的符号。这些符号在虚拟社交平台上不断轮回,失去了原本创作者的情感和深度。社会在AIGC的引领下变得越来越像一个信息沼泽,真实的交往被替代成了碎片化的点赞与评论。
AIGC的影响并非一无是处。它为创作者提供了一个广阔的曝光平台,让更多人接触到他们的作品。然而这种曝光的背后,是创作者自身价值的模糊。他们不再以创造力和深度来衡量,而是以点击率和关注数为准绳。AIGC已然创造了一个信息的幻象,让人们沉溺其中,遗忘了真实世界的复杂性与多样性。AIGC在创作者与社会之间搭建起了一座数字化的桥梁,这座桥梁却同时也成为了一面分割现实与虚拟的高墙。它催生了表面的繁荣,却掩盖了创作者内心的困惑与焦虑。AIGC的光芒是虚幻的,创作者需要警醒于其中,不被虚拟世界的风暴吞噬,坚守内心的创作本真,追求超越符号的真实存在。

*【0108comments】一个4x4x4的盒子空间,对这个影片通过四面投影是我想象的最好的展示方式

提供一个思考框架。

促进AIGC业务的规模与盈利。设计师通过将AIGC技术与市场需求结合,帮助企业形成规模和盈利能力;这不仅包括创建吸引人的设计,还包括理解如何将这些设计有效地融入商业模式和市场策略中。

关于回归商业,重要的两个关注点。1是AIGC不创造需求,是需要回归到行业与场景需求本身。2是Deepfake,深仿,超出原有概念。
*【0108comments】从技术应用在内容生产的商业角度,基于IM形态的产品是一种用户参与互动的内容生产方式,但受限用户表达丰富/长度无法逃脱二次生成内容的低质(假设可授权为二次生产的内容,与U/PGC数据内容生产闭环)。从供给收益反而不如在原有路径的内容深仿(显著降低内容生产成本)。

(AI视频-孪生技术驱动的数字人-by度加)


世界是一个可被观察的方盒子,用设计视角解构。

(AI视频)

【PDF↓】
GDFN2023_AIGC技术进化中的价值定位与工艺实用化_1223_2_小气的神

《IXDC2023-峰会R2-AIGC设计生产力的元年启示与实践》

[Medium EN Version]IXDC2023 Summit R2 — The Revelation and Practice of AIGC Design Productivity Year

内容由AIGC方式辅助创作(形式即为告白方式)


AGI与AIGC在2023年,是一束光,不太亮但在漆黑的夜里,看到希望。


2个月前在团队我接到TOPIC征集,于是用Large Language Model创建了今天的主题《AIGC设计生产力的元年启示与实践》。
我有想过如何开始今天的分享会让自己感到轻松,那我们从一个视频开始吧,我个人蛮喜欢这个视频,它是这周由多个开源的Text To Video解决方案完成,整体合成工艺大概耗时30分钟。

The Era of Virtual Transformation_IXDC2023(视频)
这个视频创意的内核在最后会有一个集中解读,过程里大家会感受到其中思想的影射。此刻,我会跟大家一起,用观察者的视角,审视本次内容,围绕在AIGC设计的内核诠释。


当下,可以坚定,在AGI与AIGC的奇点临近之时,大部分设计师并不需要一个宏大叙事;因为大家在相关设计领域,所获得的基本原理与方法,已经构成在AGI与AIGC时代的基础;从而澄清设计师在AIGC时代的生产力,回归与专注想象力。


AIGC设计的想象力,又可以有多大呢?


这是我最近喜欢的一个类比。离着冲破想象力的天花板,只差一口漂亮的菌子。
巨大的菌子巨大的猫,菌盖下的小人跳舞在围绕。然鹅大概过这一页,就不会有漂亮的图了:)


无限想象力与创造力的需要,就是我们当下面临的AIGC设计。以『Prompt』为原点的设计。


这是在2023年2月份,Sam Altman在已经变成X的twitter上对于Prompt的价值论述蛮通俗的定义。能够出色编写 Prompt 跟聊天机器人对话,是一项能令人惊艳的高杠杆技能。所以在后面的内容,我基本上不会展开过多的案例与图像。期待大家可以通过文本去体会,『基于思考并通过Prompt去表达』,对于设计师是在这个时代是极为重要能力。


我们面临着AIGC的不确定性是一个抗解问题,意味着设计问题没有确定的条件或限制。没有明确的架构定义,没有停止的规则、没有详尽的执行清单、总是有多个可能的解释,解释则完全取决于设计师的世界观与⼈生观;每一个「抗解问题」都是另⼀个“更⾼层次”问题的征兆或局部;在实践中,设计师从应该称为「准主题」的主题开始。所以今天所面临的AGI与AIGC的产品化与商业化过程,我会认为有四个设计课题,值得探讨。


这两个概念是在17年开始进入AI设计领域时,会着重在对设计师发生影响模式。在传统设计中,用户可能不知道如何与新的技术或功能进行互动。如果界面的可供性不明确,用户可能会感到困惑和不知所措。另外,对于 AI 功能的集成,如果没有进行 AI Native 设计,可能会导致用户难以理解和利用这些功能,降低用户体验。
可供性(Affordance):指物体或界面的外部特征,表明它们如何使用或与之进行互动的能力。它是由美国心理学家 James J. Gibson 在20世纪60年代提出的概念,主要用于描述人与环境之间的交互关系。在界面设计中,可供性指的是设计元素的外观和交互特征,能够暗示用户应该如何使用它们。 AI Native(人工智能原生设计):是一种设计模式,旨在将 AI 技术无缝地融入用户界面和体验中。这意味着 AI 功能和交互不仅是简单地加入到现有设计中,而是以自然、无缝、直观的方式与用户交互,使用户感觉 AI 是一部分,而非外部附加功能。即设计师、创作者和用户能够充分利用 AIGC 技术的潜力,使其成为设计创意和生产力的自然延伸,而不是简单的附加功能。促进 AIGC 技术的有效应用,从而提高设计生产力和创造性。


这两种设计模式,都会导向用户通过降低学习成本、增加用户参与度、提高品牌价值,从而能够更轻松地理解和使用新的功能,从而提高整体的用户体验。大家更关注右侧的应用技巧,如何去明确可供性、自然语言交互(非新概念,二十年前包括触感/空间互动设计等,过去我们更多认为语音交互是一种自然的自然交互)、用户参与和反馈(与以往不同的数据驱动,以用户的无意识操作为模型的反馈数据,以鼓励用户参与 AI 功能的改进与共建)、提升信任(如何建立信任的过程,聪明到争辩不可信)。


虽然 AIGC 可以高效地生成大量内容,但产品设计或内容,缺乏情感和故事元素可能导致内容单调乏味,难以引起用户的注意和兴趣。
故事讲述(Storytelling)是人类传统的一部分,自古以来我们通过故事来分享经验、传承知识、表达情感以及传达价值观。是一种强大而普遍的沟通和传递信息的方式。通过巧妙运用 Storytelling 的技巧,设计者可以更好地传达,AIGC 技术在设计生产力方面的价值和潜力,通过将 AIGC 应用场景融入故事中,设计者能够吸引观众,引发情感共鸣,并将复杂的技术概念转化为生动、易于理解的故事,从而增强人们对 AIGC 在设计中的认知和接受度。


从结果上来看,我们可以更关注应用。“设计与科学一样,是理解和行动的工具。”设计师的重要功能之一是将一般概念转化为有形的现实,为创新的概念赋予形式,并显示到底是什么构成了用户价值,从而可以在任何开发过程的早期阶段进行更为准确的测试。意义叙述的策略,以技术与市场为交叉维度。面向旧市场与旧技术进行挖掘型叙事,面向旧技术与新市场进行以用户为中心型叙事,面向旧市场与新技术进行技术型叙事,面向新市场与新技术进行探索型叙事。需要注意的是,虽然 AIGC 可以增强 Storytelling 的技巧和效果,但在应用过程中要谨慎处理用户隐私和倫理问题。同时,要避免过度依赖 AIGC,保持人类创意和判断的重要性,确保 Storytelling 仍然具有人性化和深度。


人们通常会按照自己的期待理解客体所包含的意义。无论是属于个体的自然语言,或用于与模型交互的Prompt,或是模型输出的作品,并不能准确无误地互相传达。(互为黑盒)
Prompt 模型是指一种基于自然语言提示的模型,它通过使用特定的上下文或提示来引导模型生成特定的输出。生成式设计是一种使用机器学习技术自动生成设计的方法,它可以根据给定的输入数据生成对应的设计结果。
告白是设计作品的一种表达,而用于交互的Prompt是一种探索追求,输出与结果对于用户的目的不是传达,而是告白和提问,这使得模型与生成式创作工具具有两个意义,也是设计的目的。


我们在基于Prompt的模型与生成式设计碰到的左侧的问题,目前的生成式设计技术虽然非常强大,但仍面临生成质量不稳定、过度拟合等问题。需要持续改进和优化。使用生成式设计时,设计师需要注意版权和知识产权问题,确保生成作品的合法性和使用权限。生成式设计在面对高度专业性和创意要求的设计任务时,可能无法完全替代人类设计师的创意和判断力。一些设计项目需要更深刻的理解和创意,而模型可能难以达到这一要求。
过度依赖Prompt模型和生成式设计可能导致设计师对于个人创造性的依赖减弱,从而降低设计师的技能水平和创意能力。
导向局限性的控制,需要认识到它们的局限性和潜在的痛点,合理运用并结合人类创意和判断力,才能取得最好的设计效果。右侧的应用,生成式设计可以帮助设计师获取更多的创意和灵感。通过给定特定的上下文或提示,模型可以生成多样化、独特的设计作品,提供创作的可能性。高效地自动生成设计结果,节省设计师的时间和精力。迅速生成多个设计选项(初步草图和原型),快速探索和迭代,从而快速验证和调整设计方案。生成式设计可以用于艺术创作,艺术家可以通过与模型的互动来获得灵感和创意启发。


科技进步与人类福祉的提升并非正相关,极大的生产力提升后,我们正在重新尊重人们可以而技术却无法做到的事情。
技术是令人兴奋和愉悦的,但技术也往往会增加人们的焦虑和失控感。我们在设计的过程中需要将“幸福”纳入考量,使用设计和技术来提升人类幸福、发展人类潜能的工作。
偏见和歧视问题,AIGC的算法可能受到训练数据的影响,导致偏见和歧视问题。如果不加以控制和纠正,生成的内容可能会对不同群体产生不公平的影响;在使用AIGC生成内容和设计服务时,需要关注倫理和隐私问题,特别是涉及到用户情感和心理状态时,需要保护用户的隐私和个人数据安全; AIGC可能导致人们对真实社交和情感交流的减少,如果人们过于依赖技术来满足情感需求,可能导致社交隔离和孤独感的增加。


总的来说,结合积极计算和服务设计的方法,AIGC 的未来可以实现更加人性化、情感化和个性化的内容生成,提高用户体验和参与度,创造更具价值的内容服务。在未来的发展中,积极计算和服务设计可以结合应用,以实现更加积极、人性化的服务设计。这种结合可以帮助企业提高用户体验、增加用户忠诚度和提高服务效率。
例如,通过积极计算的技术,可以分析用户的情绪和行为,从而为用户提供更加个性化的服务。同时,服务设计可以通过整合设计和商业模式,将这种个性化服务实现商业化,从而实现企业的盈利目标。积极计算和服务设计是未来数字化服务发展的重要方向,它们的结合应用可以带来更好的用户体验和服务效率,同时也为企业提供了新的商业机会和增长点。


如果人类的创造力为新想法的产生提供了无穷的可能性,那么必须强调的是,想法本身并不是创新,虽然这种误解十分常见。
很多设计师通过制定各种规定、应用分类学、归纳法等,尽量使设计过程变得更系统化、科学化,更容易预测,并与电脑的兼容性更好等。其中程序化的设计系统是最为典型的做法之一,试图将设计置于体面的科学背景当中,为设计套上合理的理论框架,在他们看来,如果设计拥有了理论化的结构,就有了科学的派头。这类方法代表了理性、逻辑与智慧但过度使用也可能导致简化论,使设计变得空泛,还会不可避免地染上高技术功能主义的弊病,牺牲了人的基本需求,即追求所谓形式的清晰。
只有当个想法体现在设计当中,以一种与用户生活相关、易于理解、有用、易得、可负担或令人愉悦的形式出现时,想法才能真正地代表了创新,创造出新的价值。
THESE VIOLENT DELIGHTS HAVE VIOLENT ENDS。


大家要感谢自己的耐心,在这个时代,可以安静的思考与冥想。
最后解释下视频里的内容,来自鲍德里亚(Jean Baudrillard)法国哲学家和社会学家,他的理论探讨了现代社会和文化的消费主义特征,认为现代社会已经超越了物质现实,成为一个虚拟世界,人们的认知和行为也受到了虚拟世界的影响。鲍德里亚认为在后现代社会中,我们越来越多地生活在模拟和模仿的虚假现实中。现代社会中的符号和象征并非反映现实,而是创造了一个虚构的世界,这种虚构的世界逐渐取代了现实本身。在鲍德里亚的视角中,后现代社会中的虚拟世界和真实世界之间的界限逐渐模糊,甚至消失。这使得我们难以分辨什么是真实的,什么是虚构的。
The Era of Virtual Transformation_IXDC2023(视频)

AIGC分享2023-05-16@中国传媒

驱动这个分享的是极致的知识折旧不安,循环在阅读、实践与反思。

开始与结束定制了两个Deforum生产视频。
链接:https://pan.baidu.com/s/1mLN1FaPDx48LWHW6TLdpow?pwd=3h8i
【省略鼓励 参见文末PDF】

从前一周参加Qi的分享开始。对于IT/互联网行业,是一次非常有意义的总结,我们当下在一个新范式的新拐点。

范式通常指的是一种发展模式,它包括观念性的思考框架、以及实践体系和方法论。当前,我们正面临一场非常大的技术变革,这是一场范式的变革,它展现出了一个全新的范式。
每次范式变革都带来更多的机遇和挑战,因为它既要改变人们做事的方式,也要改变人们的思考方式。
这个拐点的背后是“模型“的成本发生了类似的结构性变化,即模型成本从边际成本发展为固定成本。这背后的原因是我们有一项新的基础技术出现了,这就是大模型。我们当下的拐点,模型将无处不在。

设计师用大模型时代,已经高速在进行了。微软的Designer、Adobe的Firefly、包括今天的即时。(活动由即时牵线)
有大量的创业公司,不管你是二维图像的设计师、三维结构的设计师、建筑物的设计师、家装装修的设计师,它都能够用大模型来充足提高设计师的设计能力、设计质量。
但是这个发展过程是分阶段走的,今天的设计工具主要是在创意阶段,因为今天的大模型很容易生成图像、生成视频、生成三维结构,它的特性是人可以很快在看到这个设计后判断是所需与否。
以后可以用大模型进入到每个设计过程的每个环节,从根本意义上提升整个设计行业,不管是哪一个设计的专业类别。
在Qi的观点里,产学研,影响到生产力与生产关系的演变,且数字化进程不断加速,周期越来越短,更新越来越快。
新的科学范式需要数据、需要计算来发现新的科学现象,所以本质上,科研的发展必须逐步逐步跟商业化是合为一体。
当下我们的这次交流,也是非常有前瞻与必要性,正加速合作与融合。这种范式的变化是结构性的,就是因为科学的发现跟商业化分不开了。

在学术研究的大家,还是在大厂工作应用的设计师,也更关注产业学术的发展。

在近期5.6号,10天前英伟达发布的一篇论文,提到了一个新的文生图模型Perfusion。Perfusion模型,如名字Key-locked,特征对于关键对象锁定,用于文生图个性化的编辑。
两个例子,分别以泰迪熊Teddy和茶壶Teapot为训练对象(3张图)。分别展示了单一概念(提示词里只有Teddy),以及概念组合(提示词里既有Teddy又有Teapot)情况下,用一段文字生成图片的情况。
该模型的相对于大家更熟悉的lora/Hypernetwork模型,对于训练集的要求更低(只需100KB 的模型大小,经过大约4分钟的训练)。且效果不错。第一航cat穿衣服扮演、第二行teddy水中玩球。零样本迁移能力,完美匹配大模型的能力(专注于触发词的元素表现,其他场景交给大模型)。
关键技术的发展对于设计实践的影响,正在加速。

【讲述如图&省略案例】


(我极其不喜欢快手关于什么做得好的对抗提问)

最后,我把我最喜欢的画家Pissarro从19世纪带给大家,『他重新画』了一个个我喜欢的设计&艺术家。
在AIGC时代,设计表现力可能不是瓶颈,文本与理解,设计的起点会更为宝贵。
我们也以Prompt为结束,致大家。不忘设计初心,热爱与自信。

【相关链接/文档/含播客提及书籍】

【设计几何 x 播客版本 0627版本】
《范式转移,做设计的为什么要开始懂学术?》

UX Hiring

微信→ mdongorg

坐标→ 一线某司
职能→ 【交互/UI视觉/运营/管理】 职级→【P4~P8】