不乱于心,不困于情。
不畏将来,不念过往。如此,安好。

8B参数,最强开源文生图模型,对标NBP,24G显卡就能跑…

大家好,我是刘聪NLP。

昨天晚上刷X,看到百度开源了一个文生图模型,ERNIE-Image,只有8B参数,

图1–8B参数,最强开源文生图模型,对标NBP,24G显卡就能跑…–seo优化_前端开发_渗透技术

榜单效果很顶,主要24G显卡就能跑,简直本地部署的福音~

HF:https://huggingface.co/baidu/ERNIE-Image-Turbo

本来以为8B模型就那样,但没想到ERNIE-Image对复杂提示词的遵循效果还不错

整体感受如下:

  • 对比较复杂Prompt遵循能力很好,一些细节描述也能表现出来
  • PPT、信息图、数据大屏的信息处理和展现都很好
  • 对中文的支持效果不错,但对于太长的文本渲染可能会出现一些bad case,需要roll
  • 推理速度很快
  • 但确实一些场景上,跟nbp还是有差距的,比如部分真实感等。

来看case,有一些是之前在x比较火爆风格的图,

角色设定生成

生成的内容比较细节,每个部分的要求均能达成。

图2–8B参数,最强开源文生图模型,对标NBP,24G显卡就能跑…–seo优化_前端开发_渗透技术
一张垂直画幅的日系动漫风格角色设定图,背景为淡青色宣纸质感,带有若隐若现的水墨纹理与细线网格,整体排版清晰规整,信息分区明确。角色设定为一名东方奇幻风少年符咒师,气质温和但神秘。拥有白银色短发(略带凌乱层次)和淡金色眼睛,身形清瘦。服装为改良汉服风格(宽袖外袍+束腰内衫+布靴),衣摆和袖口带有符文刺绣,整体轻盈飘逸。画面顶部为标题:'CHARACTER DESIGN: YUN'副标题:'CLASS: SPIRIT TALISMANIST'第一部分(顶部区域):三视图与比例设定左侧为简洁标尺刻度,标注 'HEIGHT: 173CM' 与 '7 HEADS TALL'。中间为角色正面站姿(手持符纸,衣摆自然垂落),左侧为侧面视图(展示衣袍层次与发型轮廓),右侧为背面视图(符文纹样与披风结构清晰)。三图下方标注:'FRONT'、'SIDE'、'BACK'第二部分(中上区域):道具与服装细节展示三处关键细节放大图,并带注解线:- 手中悬浮的符纸(微微发光),标注 'SPIRIT TALISMAN'- 腰间的符咒收纳卷轴,标注 'SCROLL CASE'- 袖口与衣摆的符文刺绣细节,标注 'RUNIC EMBROIDERY'第三部分(中下区域):表情设定横向排列五个头部特写:- 'NEUTRAL':神情平静- 'SMILE':温和浅笑- 'FOCUS':专注施术前状态- 'SURPRISED':微微睁大眼睛- 'SERIOUS':目光冷静坚定第四部分(底部区域):动作设定三个动态姿势:- 左侧:施展符咒,符纸环绕飞舞,标注 'CASTING'- 中间:站立整理符纸,轻松状态,标注 'IDLE'- 右侧:战斗姿态,符纸悬浮成阵,衣摆飞扬,标注 'BATTLE FORM'整体风格要求:日系动漫风格融合东方水墨元素,线条轻盈流畅;主色调为青灰、米白、淡金色,辅以符咒的微光效果;整体具有动画设定集质感,干净、克制但富有氛围感。

四宫格漫画

能够理解Transformer的含义,并且在复杂信息的表述上,很准确。

图3–8B参数,最强开源文生图模型,对标NBP,24G显卡就能跑…–seo优化_前端开发_渗透技术
以海绵宝宝的动画风格,画一幅4格漫画《派大星的AI奇遇记:Transformer原理大揭秘!》,分镜逻辑:第1格:派大星面对一大堆杂乱信息一脸懵,表现“信息太多、抓不到重点”的困惑与混乱;第2格:海绵宝宝用“放大镜+记忆气泡”的比喻解释Transformer中的“注意力机制”,强调“不是全部都看,而是重点关注重要部分”;第3格:海绵宝宝进一步解释“自注意力=自己和自己信息做关联”,说明模型如何理解上下文关系,派大星露出恍然大悟的表情;第4格:派大星成功用Transformer思路整理信息,海绵宝宝总结Transformer优势:理解上下文强、并行计算高效、适合处理长文本;要求:台词口语化、有幽默感,知识点准确,漫画分镜清晰,视觉风格统一,简洁有力。

九宫格服装搭配

整体的人物的一致性保持的很好,仅替换了不同的穿着,并且每种风格都是按照提示词中要求显示。

图4–8B参数,最强开源文生图模型,对标NBP,24G显卡就能跑…–seo优化_前端开发_渗透技术
垂直构图的2D数字插画排版图,背景为纯净的浅米白色纸张质感,带有极轻微颗粒与设计稿网格痕迹,整体呈现高级角色设计参考图风格。画面顶部居中位置印有黑色粗体大写英文标题 'OUTFIT STYLE VARIATIONS',其下方紧挨一行较小副标题 'Character Wardrobe Reference'。画面核心主体为一个严格的 3x3 九宫格布局,展示同一位年轻女性角色在不同穿搭风格下的半身头像。为了适配竖版画幅,每个头像均采用轻微竖向拉伸的矩形构图,九宫格之间保持均匀且留有清晰留白间距,整体排版规整、对齐精确。## 角色统一设定(所有格子一致)女性角色为年轻亚洲女性,面部特征高度一致:白皙干净的皮肤、柔和杏仁形棕色眼睛、自然双眼皮、挺直小巧鼻梁、浅粉色自然唇色,表情统一为轻微冷静自信的中性状态。所有造型均保持相同基础妆容与光影一致性,以突出服装变化。身体比例为标准时尚模特比例,半身构图,肩颈线条清晰。## 第一排(都市通勤风)左一:极简黑色西装外套 + 白色衬衫内搭,利落干练风格底部标注:'Minimal Blazer Look'中间:米色针织短袖上衣 + 高腰直筒西装裤,柔和通勤感底部标注:'Soft Office Wear'右一:深灰色廓形风衣 + 高领打底,冷感都市气质底部标注:'Urban Coat Style'## 第二排(休闲日常风)左一:宽松连帽卫衣 + 骑行短裤,运动休闲混搭风底部标注:'Hoodie Casual'中间:白色T恤 + 牛仔外套叠穿 + 牛仔裤,经典美式休闲底部标注:'Denim Layering'右一:针织开衫 + 短裙 + 长袜,轻甜日常风底部标注:'Soft Girl Casual'## 第三排(风格化穿搭)左一:黑色皮质短夹克 + 修身长裤,轻机能街头风底部标注:'Street Leather Look'中间:浅色吊带连衣裙 + 薄纱外披,轻法式浪漫风底部标注:'French Soft Dress'右一:高领紧身打底 + 金属感半裙,未来感时尚风底部标注:'Futuristic Chic'## 视觉风格要求整体为精致半写实2D数字插画风格,带有轻微日系角色设计感与时尚杂志质感融合;光线均匀柔和,类似影棚打光;服装材质细节清晰(棉、针织、牛仔、皮革、薄纱等表现明确);色彩整体克制但风格区分明显;构图严格网格对齐,具有高度参考性与设计规范感,适用于角色设定集与服装风格研究展示。

人物生成

复杂指令的遵循,身体倾斜、双腿弯曲、双手打开、呼出白气,这些都很好的表现了出来。

图5–8B参数,最强开源文生图模型,对标NBP,24G显卡就能跑…–seo优化_前端开发_渗透技术
滑雪运动员在雪山空中腾空,身体略微侧倾,双腿弯曲,滑雪板与身体呈倾斜角度,双臂展开保持平衡。  表情专注冷静,呼出的白气清晰可见。 阳光下雪粒飞散闪光,远处雪山与松林背景虚化。  轻微动态模糊增强速度感,低角度仰拍,捕捉腾空瞬间,电影级写实,高细节。

老年工匠的质感也很不错,

图6–8B参数,最强开源文生图模型,对标NBP,24G显卡就能跑…–seo优化_前端开发_渗透技术
老年工匠特写肖像,布满皱纹的面部,皮肤纹理细节丰富,专注地望向远方,自然阳光,车间背景虚化,纪实摄影风格,富士胶片拍摄,真实眼睛,高细节

PPT

图7–8B参数,最强开源文生图模型,对标NBP,24G显卡就能跑…–seo优化_前端开发_渗透技术
请帮我设计一页PPT,主题为“AI Agent的应用场景”,整体风格为科技极简风。  页面需要包含标题、3-5个核心应用场景模块,以及简短说明。  内容用中文表达。  视觉上要求简洁、留白充足、结构清晰,偏企业级汇报风格,突出专业感与未来科技感。

信息图

图8–8B参数,最强开源文生图模型,对标NBP,24G显卡就能跑…–seo优化_前端开发_渗透技术
手绘涂鸦风信息图,sketchnote风格,纸张质感背景,白色底,手绘不规则线条,分块布局,虚线框,科技蓝白色配色,视觉笔记风格,清晰信息结构,AI产品说明图。内容:

数据大屏

大屏的内容,可用显示比较全面,整体风格保持的很好。

图9–8B参数,最强开源文生图模型,对标NBP,24G显卡就能跑…–seo优化_前端开发_渗透技术
请帮我设计一个AI算力中心监控数据大屏,用于领导汇报展示。整体为深色科技风数据大屏界面,类似云计算或AI基础设施监控系统。内容包括:- GPU算力利用率- 任务队列与调度状态- Token消耗与请求量- 模型运行状态监控- 节点健康状态分布- 实时性能指标(延迟/吞吐)整体要求:强科技感、未来感、数据密集但结构清晰,适合企业级展示。

旅行手帐

我没想到,他这个做的还是挺细致的,世界知识有的,马迭尔冰棍儿确实权威,东北的冬天,雪糕是买的最好的~

图10–8B参数,最强开源文生图模型,对标NBP,24G显卡就能跑…–seo优化_前端开发_渗透技术
生成中国冬天哈尔滨的旅游指南,要求手账形式,画面要纯中文。

古诗句配图

典型的文本意境映射能力,整体氛围突出的很好

图11–8B参数,最强开源文生图模型,对标NBP,24G显卡就能跑…–seo优化_前端开发_渗透技术
请为古诗“枯藤老树昏鸦,小桥流水人家”生成水墨国风插画。

原理图

生成一个化学反应的原理图,整体内容表现出来了,但是有两个地方的箭图12–8B参数,最强开源文生图模型,对标NBP,24G显卡就能跑…–seo优化_前端开发_渗透技术

生成一张高中教材风格的“酸碱中和反应原理示意图”,要求结构清晰、逻辑严谨、标注规范。

物体变化测试

参考好友@洛小山的case,这个很顶,渲染的很逼真~

图13–8B参数,最强开源文生图模型,对标NBP,24G显卡就能跑…–seo优化_前端开发_渗透技术
生成一张微距摄影图像,展示金属表面从新到氧化的演变过程。左侧为抛光金属镜面反射,中间出现轻微氧化斑点,右侧为厚重锈蚀与剥落结构。微距摄影,浅景深,中段清晰对焦,光线侧射,强调金属从光亮到腐蚀的过程。

最后,

测完之后,感觉ERNIE-Image,8B参数确实有亿点强,

指令遵循、复杂场景都很不错,

当然,实事求是的说,一些长内容的表达、更复杂的意境跟nbp还是有差距的。

但胜在小,能本地部署呀,

感觉后面社区出一大堆lora的时候,效果会更好。

赞(0)
未经允许不得转载:seo优化_前端开发_渗透技术 » 8B参数,最强开源文生图模型,对标NBP,24G显卡就能跑…