Text-to-3D！建筑学小哥自称编程菜鸟，攒了个 AI 作画三维版，还是彩色的

大千世界 2022年09月25日 20:36 217 0

　　AI 画师，技术又精进了 ——

　　直接一句话 / 一张图，生成 3D 模型、环绕视频、NeRF 实例那种。

　　还是带颜色的。

　　输入“一幅美丽的花树画，作者 Chiho Aoshima，长镜头，超现实主义”，就能瞬间得到一个长这样的花树视频，时长 13 秒。

　　

Text-to-3D！建筑学小哥自称编程菜鸟，攒了个 AI 作画三维版，还是彩色的-第1张图片-大千世界

　　这个文本 / 图片-3D 生成 AI，叫 Dreamfields-3D，来自一个自称编程菜鸟的建筑学在读博士。

　　Demo 刚被小哥放在微博、推特等平台，许多网友已经急着蹲内测了：

　　

Text-to-3D！建筑学小哥自称编程菜鸟，攒了个 AI 作画三维版，还是彩色的-第2张图片-大千世界

　　第二步，调出工具开始运行，并安装依赖项。

　　

Text-to-3D！建筑学小哥自称编程菜鸟，攒了个 AI 作画三维版，还是彩色的-第3张图片-大千世界

　　然后定义一些必要的功能，就可以在 colab 上训练和测试了～

　　

Text-to-3D！建筑学小哥自称编程菜鸟，攒了个 AI 作画三维版，还是彩色的-第4张图片-大千世界

　　万事俱备，让我们现在开始。

　　试试输入“一个赛博朋克风格的飞行霓虹灯汽车，格雷格鲁特科夫斯基和西蒙斯大林风格，长镜头，CG 社会，虚幻的引擎，史诗游戏”?

　　会得到一个果然很赛博的汽车的视频。

　　

Text-to-3D！建筑学小哥自称编程菜鸟，攒了个 AI 作画三维版，还是彩色的-第5张图片-大千世界

　　如果你是《千与千寻》重度爱好者，想搞张吉卜力风格的视频玩玩。

　　没问题，prompt 输入“一张美丽的天空城市的插图，吉卜力工作室，艺术站，8k HD，CG 社会”，这不就来了 ——

　　

Text-to-3D！建筑学小哥自称编程菜鸟，攒了个 AI 作画三维版，还是彩色的-第6张图片-大千世界

　　有网友迫不及待上手，做出了个小计算机。

　　

Text-to-3D！建筑学小哥自称编程菜鸟，攒了个 AI 作画三维版，还是彩色的-第7张图片-大千世界

　　当然在鹅妹子嘤的惊叹中，也有网友表达了希望 Dreamfields-3D 更好的期许。

　　

Text-to-3D！建筑学小哥自称编程菜鸟，攒了个 AI 作画三维版，还是彩色的-第8张图片-大千世界

　　当然，除了文本输入，Dreamfield3D 是支持图片作为 prompt 的。

　　不过现在版本还有待完善，如果输入图片，会造成过拟合，简单说就是如果喂它一张车的正面图，生成的 3D 视频中，那辆车可能 4 个面都是正面……

　　想要玩儿图片输入的友友们，怕是要再等等了。

　　基于现状，小哥在 GitHub 表达了未来的改进目标：

　　同时使用不同的 CLIP 模型。

　　仅在指定方向应用图像提示。未来可能要加一个图片角度的约束，例如只有在输入图片相同角度时，输出才参考该图片。

　　作为 NeRF 实例读取现有网格，然后通过文本 / 图像 prompt 进行修改。

　　在训练中减少 GPU RAM 的使用。

　　(但小哥说了，自己是个编程菜鸟，后续可不保证哦)doge

　　基于谷歌 Dreamfields-Torch

　　小哥是建筑学出身，据他讲，Dreamfield3D 是他从创作者角度出发，对 Dreamfield-Torch 做了些优化，主要的代码工作还是来自上游的 Dreamfields-Torch 和 Dreamfields。

　　介绍下，Dreamfields 来自谷歌，它的特点是无需照片样本，简简单单一句话，就能生成 3D 图像，还可以生成多种物品组合成的复合结构。

　　

Text-to-3D！建筑学小哥自称编程菜鸟，攒了个 AI 作画三维版，还是彩色的-第9张图片-大千世界

　　在生成 3D 场景时，通常会选用神经辐射场(NeRF)参数方案。

　　NeRF 的特点是可分别渲染场景，但需要很多张 3D 照片，才能实现 360° 视觉重建。

　　相比之下，Dreamfields 生成 3D 模型不需要照片，因为它基于 NeRF 3D 场景技术、OpenAI 文本生成模型 DALL・E 以及 CLIP 的 3D 生成系统开发，通过神经网络来储存 3D 模型。

　　DALL・E 和 CLIP 同样师出谷歌，前者通过文本生成图像，后者通过文本分类图片。用 CLIP 来分类 DALL・E 生成的图像，可以提升图像生成的准确性。

　　Dreamfields-Torch 则是一个经过修改的 Dreamfields 的 Pytorch 实现，主要是把原 Dreamfields 的后端，从原始 NeRR 换成了 instant-ngp。

　　以此为基础，小哥做出的 Dreamfields-3D 基本上靠 CLIP + NERF 运作。

　　

Text-to-3D！建筑学小哥自称编程菜鸟，攒了个 AI 作画三维版，还是彩色的-第10张图片-大千世界

　　作者简介

　　作者蒙胜宇(Simon Meng)，奥地利因斯布鲁克大学(UIBK)建筑学在读博士。

　　硕士毕业于伦敦大学学院(UCL)建筑学，现为 UIBK 及 UCL 技术课程助教及特邀评图嘉宾，从事建筑设计、艺术、AI 及生物学跨领域研究。

　　

Text-to-3D！建筑学小哥自称编程菜鸟，攒了个 AI 作画三维版，还是彩色的-第11张图片-大千世界

　　小哥从去年 6、7 月份开始关注 AI 图像生成。

　　他发现，很多破圈技术，如 clip guide diffusion，disco diffusion，都是一些懂代码的跨界者做的。

　　去年年末谷歌发布 Dreamfields，他就动了用它做 3D 输出的心思。

　　于是，在拿到动画后，他用 AI 做了超采样放大和插帧，然后导出帧到普通的多目重建软件(类似 colmap)，成功重建 mesh(一个用 3D 模型数据还原的模型图)。

　　

Text-to-3D！建筑学小哥自称编程菜鸟，攒了个 AI 作画三维版，还是彩色的-第12张图片-大千世界

　　小哥把 mesh 发在推特上，结果 Dreamfields 论文的原作者 Ajay Jain 联系到他，表示了欢迎，还鼓励他保持优化更新 —— 虽然那时候他用的是普通航拍实景重建软件，不是编程方法。

　　上个月，小哥在 Dreamfield-Torch 的基础上做了 colab 版，本月在 GitHub 开源，让大家能够愉快地玩耍。

　　以及，现在这个已经是基于 Marching cubes 的船新版本啦～

　　GitHub 地址：

　　https://github.com/shengyu-meng/dreamfields-3D

　　colab 地址：

　　https://colab.research.google.com/drive/1u5-zA330gbNGKVfXMW5e3cmllbfafNNB?usp=sharing#scrollTo=_VDLFG_gUEKa

　　参考链接：

　　[1]https://weibo.com/1948301550/M4o6m3vGn?type=comment#_rnd1663119855180

　　[2]https://twitter.com/meng_shengyu

　　[3]https://github.com/ashawkey/dreamfields-torch

标签： AI

本文地址： https://www.dqsj.net/keji/85466.html

文章来源： IT之家

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至23467321@qq.com举报，一经查实，本站将立刻删除;如已特别标注为本站原创文章的，转载时请以链接形式注明文章出处，谢谢！

上一篇Satechi 发布 Mac / iPad 六合一 USB-C 多端口扩展坞：支持 2.5G 以太网端口

下一篇苹果 AirPods Max 无线耳机用户抱怨：更新“垃圾”4E71 固件后，主动降噪更糟糕了

抱歉，评论功能暂时关闭!