个人真知灼见篇 | 2024年“AIGC行业发展趋势&研究热点指引”,满满的一箩筐干货送给你!


 


 

 

01-文生图任务在往“高可控、超大分辨率方向发展”。

    经历了2023年的快速迭代,当前的文生图算法已经可以在输入恰当的文本提示的情况下生成高精度的图片(SD与MJ就是代表)。但是你可能还存在着这样的一个痛点问题:“如何生层高可控、高分辨率的图片?”

    当前很多文生图算法的控制能力还比较弱,很多时候它并不能立马生成你想要的图片,你需要尝试很多次才能生成满意的结果,这期间需要耗时大量的算力成本和人力除此之外,对于文生图算法的部分应用场景而言,它们期望能够获得超大分辨力的图像,例如:液晶屏显示、电影制作等。

    为了解决上述的问题,2024年已经相继出现了多篇支持超大分辨率的文生图模型,最大的甚至支持8K+分辨率。除此之外,ControlNet算法的性能也得到了大幅度的提升,你可以利用实现更精准的控制。

02-图像编辑算法其实也是一种形式的ControlNet,需要你灵活的使用它。

    很多朋友可能不太了解图像编辑算法,或者任务图像编辑算法没有太多的用物之地!那只能说你还是不太了解它,不知道它的用物之地。顾名思义,图像编辑算法可以对图像中的部分目标执行增删添改操作。你可以先用文生图算法生成图像,然而生成的这些图像不一定能够满足你的特定需求,这是你可以使用图像编辑算法将其修改成你想要的样子!

    它与ControlNet不同的地方在于:ControlNet是在生成之前添加约束,而图像编辑是在生成图像之后修改。2023年的图像编辑算法都已经很强大了,它不仅可以针对图像中的前景、背景、各种目标进行精确的增删添改等;而且甚至可以让静态图片很自然的动起来!现在已经2024年,强大的图像编辑算法简直不要太多了。

03-ComfyUI只是开始,并不是结局!
    相信很多作文生图应用的朋友们对ComfyUI都不陌生,它是一个最强大且模块化的SD GUI和后端。它的最大价值是:彻底简化了文生图算法的应用难度与门槛,即使是没有代码编程经验的设计师,也能通过简单的拖拽来搭建出一个简易的文生图流程出来。
    然而,使用过ComfyUI的朋友可能会有这样的体会,它的难度在于如何理清并搭建整个算法的流程以及如何高效的微调某些模块的参数等。为了搭建文生图应用,很多人可能都会踩很多相同的坑!
    因此,个人觉得ComfyUI还有进一步优化的空间。当前的文生图技术架构基本确定,将其应用在不同的领域中可能只需要调节部分的模块或者参数就可以了,并不需要让所有人都从头开始搭建这个流程,让所有人把相同的坑踩一遍。针对当前的ComfyUI中的核心模块做进一步的封装,并上架一个类似于App商城的ComfyUI框架商城能够更快的加速文生图在多个行业的落地速度。商城里面可以放很多比较通用的模版,用户只需要根据自己的需求调节某些模块或者参数就可以将其落地到自己的应用场景!
    据我了解,当前已经有很多人在做类似的工作,但是都没有开源。这项工作的技术壁垒并没有想象的那么高,一个优秀的工程师+一个优秀的设计师 可以在一定的时间内可以将它复现出来,更重要的反而是需要想清楚都需要哪些类型的模版的问题。

04-文生3D任务在往“高精度、高可控”方向快速迭代。

    简单回忆下AIGC兴起之前,想要创建一个物体的高精度3D模型,需要耗费大量的时间与经历!首先,需要围绕某个物体旋转360度,并按照特定的角度间隔进行拍照;然后,利用一些多视角算法进行合成;最后,需要重点优化拼接缝隙。

    自从有了文生3D算法之后,彻底可以摆脱这些繁琐的操作,你只需要简单利用文字描述下你需要生成的3D目标,文生3D算法就可以帮你生成一个3D模型出来。但是在2023年,文生3D算法生成的模型的精度并不高,而且存在一些区域的缺失等现象。

    2024年,高精度的文生3D模型已经出现,淘宝上风靡一时的“给我一张照片,我帮你生成一个3D模型”底层其实就是利用的类似的算法。除此之外,文生3D任务也存在同样的一个问题:即“当前的文生3D模型并不可控,如何高可控的生成3D模型?”

    近期,有些学者们尝试着将可控的概念推广到了文生3D任务上面。它可以精确的控制3D模型的每一个部位,并可以将不同的组件精巧的组合起来。

05-文生视频的应用还需要一些时间,不过已经在路上了。文生视频+数字人是个不错的方向。

    Sora的出现,让文生视频任务变得异常火热起来,主要的原因包括:1)它突破了几s的约束,直接可以生成1分钟左右的长视频,有了极大的应用价值;2)它生成的效果太逼真,视频帧间的一致性很完美。由于OpenAI并没有开源这项技术,而其它Open-Sora的开源组织又迟迟不能复现出这样的效果,导致大家的期待落空了。

    国内外相继出现很多Open-Sora组织,想要复现并开源Sora,但是进展都不尽人意。国内的Open-Sora生成视频不仅短,而且质量还很一般;国外的Open-Sora虽然最长可以生成2分钟左右的长视频,但是生成的视频效果与质量有待进一步的提升。

    文生视频可以应用到很多场景,例如:视频创作、社交媒体创作、虚拟主播、VR、AR等。但我个人更看好“文生视频+虚拟人”这个方向,即基于虚拟人的视频生成。国内的虚拟人技术已经比较成熟,不管是大厂,还是创业公司,做虚拟人的公司一抓一大把。如果能将很好的文生视频技术与虚拟人结合,将能够打造出一个爆款产品。阿里放出的EMO就是一个很好的应用样例,让Sora生成的虚拟人开口唱歌与说活。

06-Agent+机器人/手机组合能够发挥意想不到的效果,多Agent协助是个不错的方向。

    Agent(代理)是指在某个系统或环境中代表或执行特定任务的实体。在计算机科学领域,Agent通常是指一种软件实体,它能够自主地感知环境、做出决策和执行动作,以达到预定的目标。Agent可以是自主的、智能的,也可以是被动的、简单的。它们可以是独立的程序,也可以是嵌入到其他系统中的组件。Agent通常具有一些基本特征,如感知、推理、决策、执行和通信等。

     Agent天生的优势就是“能帮你把复杂的事情分解成多件简单的事情,并将这些简单的事情组织协调起来”。"Agent+机器人"组合可以很好的辅助机器人完成复杂的感知、推理、规划、控制等任务,让这一套操作变得行云流水起来。

    "Agent+手机"组合可以充当你的全职助理,轻松完成“一键导航、视频搜索、音乐播放、应用下载”等多种无聊的操作,把你自己真正释放出来。很多人可能就是一个多余的操作,那是因为你觉得现实距离电影中的那些科幻的画面还很遥远!偷懒是人的天性,谁会抗拒自己也拥有一个免费、全能的助理或者管家来帮你处理一些繁琐乏味的事情呢!

    在某些情况下,单个Agent并不能很好的完成某件复杂的事情/任务,这时多Agent协助是一个很不错的思路。例如:为了快速的收集真实场景中的大量数据,作者提出AutoRT,它可以通过机器人车队来自主收集大量的数据。这同样可以应用在室内的仓库机器人或者室外的足球队机器人等很多的场景。
07-GPT-5可能会在“支持更多的输入类型”与“更精准的问题应答”上有大的突破。

    我相信很多朋友都在期待着GPT-5的出现,那么很多朋友可能都很想知道GPT-5可能会在哪些方面有所突破?个人觉得可能会在以下的结果方面有所突破:

  • GPT-4以及GPT-4-Turbo等大语言模型上面已经可以支持各种各样的问题类型了,基本上已经覆盖了大多数的场景。因而,GPT5可能会更关注于提升这些类型的问答效果,它可能会针对性的收集一些数据来优化当前这些问题的输出效果。

  • GPT-4以及GPT-4-Turbo并不支持输出语音、3D等类型,而语音是人类交流的一种重要媒介,它对大语言模型来说也至关重要!除此之外,我们生活在一个3D场景中,各种3D任务与数据随处可见,它也是一个很刚需的任务。因而,GPT5可能会支持语音以及3D等类型的输入!
08-随着高质量的互联网数据被榨干,LLM的迭代速度会明显变慢!

    毋庸置疑,大语言模型会出现“知识涌现”能力主要与“模型架构和大量高质量的数据有关”。个人认为大量高质量的数据更加重要一些。

    随着ChatGPT、GPT-4、GPT-4-Turbo等多语言模型的出现,互联网上面高质量的数据已经被使用的七七八八了,我觉得用“榨干”两个字来形容也不为过。然而,越到模型迭代的后期,需要的数据量更大、需要的数据质量更高,而且需要一些针对特定类型的高质量数据。

    尽管很多朋友会说“互联网不会还会产生新的数据吗?”,对,你说的没错!不过我想说的是“互联网生成大量高质量数据的速度可能已经不能满足像GPT-5等这种超大的大语言模型消耗高质量数据的速度了!”没有大量的高质量数据的支持,大语言模型的迭代速度肯定会遇到新的瓶颈期,不过这个问题并不是没有解决方案,且听下面分解!

09-伴随着高质量真实数据的枯竭,合成数据的重要性越来越凸显。

    打个比方,个人认为“数据就像是粮食,人吃不饱粮食干不动活,大模型吃不饱数据回答不出好答案!” 简而言之,大量高质量的数据对大模型而言至关重要,如上面所说,真实场景的数据正在逐渐被榨干,正在枯竭!

    解决这个问题有很多的办法,但是我个人认为仅仅依赖于高质量的真实数据来迭代LLM并不是一个理想的解决方案,适量的真实数据+部分合成数据才是一个更好的解决思路。随着UE等合成技术的快速突破,很多行业已经逐步开始利用合成数据来代替部分真实数据,大模型也不例外。

    现在还处于大模型迭代优化的前期阶段,我们还可以利用互联网累计下来的一波高质量数据来喂饱LLM。当LLM成长到一定程度之后,我们应该使用什么来喂饱它呢?所以,如果你想要让你的LLM持续高效的迭代效率,合成数据是你需要尽早考虑的一个方向!
10-苹果的强势入局,势必会加速AIGC算法在端侧的部署进程。
    苹果放弃了自动驾驶的烂牌,却拿到了AIGC的入场券,个人认为这是一个很明智的抉择。随着自动驾驶生产商的加入,这个领域无疑变得更卷,大家已经开始疯狂的打价格战。除此之外,L4+功能迟迟难以落地,然而资本已经不愿意给所谓的L4+疯狂砸钱了。
    不知道各位朋友是否观察到一个现象,2024年苹果在AIGC领域的活动变得频繁起来,相继给外界透漏出自己的一些底牌。在大语言模型、多模态大模型、模型轻量化、RPA、代码开源等方面都可以看到它的身影。
    苹果不仅拥有自己的手机生态,而且拥有强大的端侧芯片。这恰恰给大语言模型的落地准备了必要的条件。当大家都在一窝蜂的刷新LLM的各项指标的时候,苹果却选择了一条异常崎岖的路,它决定边优化LLM性能,边在端侧部署应用。苹果的入局在一定程度会加速AIGC算法在端侧场景的落地速度,尤其是手机端的应用场景。
11-2024年,AIGC算法可以在哪些端侧场景落地开花?

    无论是文生图、文生3D等任务,还是大语言模型、多模态大模型等任务,这些AIGC算法都有一个共性:“都需要底层强大的算力支撑”。随着各种AIGC算法在2023年的迭代优化,很多算法在服务端已经可以取得较好的效果。然而现实生活中,服务端仅仅占据了一少部分的应用场景,AIGC算法的大量应用需求仍在端侧。

    那么,端侧部署AIGC算法,需要满足两个基础条件:1)模型压缩加速技术(量化、蒸馏、裁剪、编译器优化等);2)强大算力的支持。由于大模型的抗干扰能力更强,int4类型已经被应用到该领域,这可以在很大的程度上加速AIGC算法的落地进程。除此之外,在某些端侧场景是可以为AIGC提供比较强大的算力支持。

    “个人PC、高算力的自动驾驶平台、高算力的机器人平台、高配手机”可能是几个在2024年可以在端侧落地AIGC算法的场景。

  • 2024年3月份,Intel、AMD等众多硬件厂商都提出了一个AIPC时代的概念,说的更直白一点就是:“AIPC时代的PC可以支持直接在端侧执行某些AIGC算法,付出的代价是需要增加一颗高性能的NPU,专门来执行一些复杂的AIGC算法的推理任务”。你可以在这些带有NPU的PC上面执行一些“文生图、大语言模型、RAG等”多种任务,无需担心个人隐私问题。

  • 对于自动驾驶的座舱域而言,它更关注娱乐与放松,更倾向于利用一些前沿的AI&AIGC算法来提升用户的交互与使用体验。大语言模型落地到这里面再适合不过了,大语言模型可以极大的提升用户的交互与沟通体验。很多自动驾驶平台上面都配备了高算力的平台(英伟达的Orin),算力高达上百T,因而这个场景是可以考虑落地一部分经过轻量化的AIGC算法。

  • 2024年初,曾经掀起了一波四足机器人和人形机器人的热潮。对于这些机器人而言,它不仅需要强大的感知、定位、规划、控制能力,而且需要强大的交互、沟通等能力。大语言模型恰恰可以满足后者的需求,它的加入势必会让这些机器人变得更加智能与聪明,能让它们的交互体验再跨越一个新的台阶。这些机器人平台上面一般都配备了比较强大的算力,这可以满足部分轻量级LLM的需求。
  • 手机无疑是一个最通用的端侧产品,AIGC算法的终极目标是服务与人类,那么手机端一定是一个很好的赋能场景。伴随着模型量化、蒸馏、编译器优化等技术的逐渐成熟,性能还可以的轻量级AIGC算法逐渐出现,将这些算法部署到手机端是一个不错的研究方向。不过,个人建议先从苹果手机下手,毕竟它的底层芯片更强大一些!

12-当你的AIGC算法满足了精度需求之后,你可能就需要考虑如何加速降本了!

    当下,还处于AIGC应用热的阶段,大家更关注的是“如果快速落地一个复杂的高精度模型”,精度是大家考量的第一指标,速度是大家考量的第二指标。拿传统的AI算法来讲,它的经历大致包含“算法突破、应用热、部署优化热”3个主要的阶段。

    随着很多AIGC子任务逐渐满足了大多数场景的精度需求之后,加速与优化它可能会逐步变成你的关注热点。在应用文生图应用的过程中,你可能会有这样的感受:“我花了那么多钱搞了个高端的显卡,跑个文生图应用需要几十秒的时间,这个时间我忍受不了,但是我又不想在设备上花太多的钱!” 假如你遇到了这种情况,我建议你可以考虑一下花点时间去选择一款最适合自己应用的LLM推理框架,它决定着你的推理速度的上限!

13-不久的将来,手机端是否也会增加一个NPU用来做AIGC算法推理?

    个人认为,手机端是AIGC应用的一个重要场景。虽然当前手机的硬件已经算是高配了(八核ARM CPU处理器+GPU),但是这并不能满足LLM等其它AIGC算法的算力要求。除此之外,ARM CPU与GPU并不适合用来执行LLM推理等任务。因此,要想在手机端高效的执行LLM推理等AIGC任务,增加一个专门做推理加速的NPU单元是一个刚需。

    然而,在手机上添加NPU需要一些时间,不仅需要解决端侧NPU的研发与应用问题,而且需要考虑成本、功耗等问题。除此之外,需要一个高效的端侧LLM推理框架的支持,而这个条件还不是很成熟。

    总而言之,手机端未来可能也会增加一个专门做LLM推理任务的NPU硬件单元,但是需要时间去开发与适配,众多的手机厂商一定会让它尽快到来!它的到来一定会引爆AIGC算法在手机端的应用速度。

14-文末福利

 

注意事项:以上的所有观点仅仅是我个人的思考,可能有很多不完善或者不成熟的地方,欢迎大家一起探讨与补充!

 


 

关注我,AI热点早知道,AI算法早精通,AI产品早上线!

 

 

 


 


欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们(备注:AI产品汇)

禁止私自转载,需要转载请先征求我的同意!

 

首页    行业动态    个人真知灼见篇 | 2024年“AIGC行业发展趋势&研究热点指引”,满满的一箩筐干货送给你!