Text-to-3D!建筑学小哥自称编程菜鸟,攒了个 AI 作画三维版,还是彩色的

大千世界 162 0

  AI 画师,技术又精进了 ——

  直接一句话 / 一张图,生成 3D 模型、环绕视频、NeRF 实例那种。

  还是带颜色的。

  输入“一幅美丽的花树画,作者 Chiho Aoshima,长镜头,超现实主义”,就能瞬间得到一个长这样的花树视频,时长 13 秒。

  

Text-to-3D!建筑学小哥自称编程菜鸟,攒了个 AI 作画三维版,还是彩色的-第1张图片-大千世界


  这个文本 / 图片-3D 生成 AI,叫 Dreamfields-3D,来自一个自称编程菜鸟的建筑学在读博士。

  Demo 刚被小哥放在微博、推特等平台,许多网友已经急着蹲内测了:

  

Text-to-3D!建筑学小哥自称编程菜鸟,攒了个 AI 作画三维版,还是彩色的-第2张图片-大千世界


  第二步,调出工具开始运行,并安装依赖项。

  

Text-to-3D!建筑学小哥自称编程菜鸟,攒了个 AI 作画三维版,还是彩色的-第3张图片-大千世界


  然后定义一些必要的功能,就可以在 colab 上训练和测试了~

  

Text-to-3D!建筑学小哥自称编程菜鸟,攒了个 AI 作画三维版,还是彩色的-第4张图片-大千世界


  万事俱备,让我们现在开始。

  试试输入“一个赛博朋克风格的飞行霓虹灯汽车,格雷格鲁特科夫斯基和西蒙斯大林风格,长镜头,CG 社会,虚幻的引擎,史诗游戏”?

  会得到一个果然很赛博的汽车的视频。

  

Text-to-3D!建筑学小哥自称编程菜鸟,攒了个 AI 作画三维版,还是彩色的-第5张图片-大千世界


  如果你是《千与千寻》重度爱好者,想搞张吉卜力风格的视频玩玩。

  没问题,prompt 输入“一张美丽的天空城市的插图,吉卜力工作室,艺术站,8k HD,CG 社会”,这不就来了 ——

  

Text-to-3D!建筑学小哥自称编程菜鸟,攒了个 AI 作画三维版,还是彩色的-第6张图片-大千世界


  有网友迫不及待上手,做出了个小计算机。

  

Text-to-3D!建筑学小哥自称编程菜鸟,攒了个 AI 作画三维版,还是彩色的-第7张图片-大千世界


  当然在鹅妹子嘤的惊叹中,也有网友表达了希望 Dreamfields-3D 更好的期许。

  

Text-to-3D!建筑学小哥自称编程菜鸟,攒了个 AI 作画三维版,还是彩色的-第8张图片-大千世界


  当然,除了文本输入,Dreamfield3D 是支持图片作为 prompt 的。

  不过现在版本还有待完善,如果输入图片,会造成过拟合,简单说就是如果喂它一张车的正面图,生成的 3D 视频中,那辆车可能 4 个面都是正面……

  想要玩儿图片输入的友友们,怕是要再等等了。

  基于现状,小哥在 GitHub 表达了未来的改进目标:

  同时使用不同的 CLIP 模型。

  仅在指定方向应用图像提示。未来可能要加一个图片角度的约束,例如只有在输入图片相同角度时,输出才参考该图片。

  作为 NeRF 实例读取现有网格,然后通过文本 / 图像 prompt 进行修改。

  在训练中减少 GPU RAM 的使用。

  (但小哥说了,自己是个编程菜鸟,后续可不保证哦)doge

  基于谷歌 Dreamfields-Torch

  小哥是建筑学出身,据他讲,Dreamfield3D 是他从创作者角度出发,对 Dreamfield-Torch 做了些优化,主要的代码工作还是来自上游的 Dreamfields-Torch 和 Dreamfields。

  介绍下,Dreamfields 来自谷歌,它的特点是无需照片样本,简简单单一句话,就能生成 3D 图像,还可以生成多种物品组合成的复合结构。

  

Text-to-3D!建筑学小哥自称编程菜鸟,攒了个 AI 作画三维版,还是彩色的-第9张图片-大千世界


  在生成 3D 场景时,通常会选用神经辐射场(NeRF)参数方案。

  NeRF 的特点是可分别渲染场景,但需要很多张 3D 照片,才能实现 360° 视觉重建。

  相比之下,Dreamfields 生成 3D 模型不需要照片,因为它基于 NeRF 3D 场景技术、OpenAI 文本生成模型 DALL・E 以及 CLIP 的 3D 生成系统开发,通过神经网络来储存 3D 模型。

  DALL・E 和 CLIP 同样师出谷歌,前者通过文本生成图像,后者通过文本分类图片。用 CLIP 来分类 DALL・E 生成的图像,可以提升图像生成的准确性。

  Dreamfields-Torch 则是一个经过修改的 Dreamfields 的 Pytorch 实现,主要是把原 Dreamfields 的后端,从原始 NeRR 换成了 instant-ngp。

  以此为基础,小哥做出的 Dreamfields-3D 基本上靠 CLIP + NERF 运作。

  

Text-to-3D!建筑学小哥自称编程菜鸟,攒了个 AI 作画三维版,还是彩色的-第10张图片-大千世界


  作者简介

  作者蒙胜宇(Simon Meng),奥地利因斯布鲁克大学(UIBK)建筑学在读博士。

  硕士毕业于伦敦大学学院(UCL)建筑学,现为 UIBK 及 UCL 技术课程助教及特邀评图嘉宾,从事建筑设计、艺术、AI 及生物学跨领域研究。

  

Text-to-3D!建筑学小哥自称编程菜鸟,攒了个 AI 作画三维版,还是彩色的-第11张图片-大千世界


  小哥从去年 6、7 月份开始关注 AI 图像生成。

  他发现,很多破圈技术,如 clip guide diffusion,disco diffusion,都是一些懂代码的跨界者做的。

  去年年末谷歌发布 Dreamfields,他就动了用它做 3D 输出的心思。

  于是,在拿到动画后,他用 AI 做了超采样放大和插帧,然后导出帧到普通的多目重建软件(类似 colmap),成功重建 mesh(一个用 3D 模型数据还原的模型图)。

  

Text-to-3D!建筑学小哥自称编程菜鸟,攒了个 AI 作画三维版,还是彩色的-第12张图片-大千世界


  小哥把 mesh 发在推特上,结果 Dreamfields 论文的原作者 Ajay Jain 联系到他,表示了欢迎,还鼓励他保持优化更新 —— 虽然那时候他用的是普通航拍实景重建软件,不是编程方法。

  上个月,小哥在 Dreamfield-Torch 的基础上做了 colab 版,本月在 GitHub 开源,让大家能够愉快地玩耍。

  以及,现在这个已经是基于 Marching cubes 的船新版本啦~

  GitHub 地址:

  https://github.com/shengyu-meng/dreamfields-3D

  colab 地址:

  https://colab.research.google.com/drive/1u5-zA330gbNGKVfXMW5e3cmllbfafNNB?usp=sharing#scrollTo=_VDLFG_gUEKa

  参考链接:

  [1]https://weibo.com/1948301550/M4o6m3vGn?type=comment#_rnd1663119855180

  [2]https://twitter.com/meng_shengyu

  [3]https://github.com/ashawkey/dreamfields-torch


标签: AI

抱歉,评论功能暂时关闭!