下一个席卷人工智能世界的突破可能是3D 模型生成器。本周,OpenAI 开源了 Point-E,这是一个机器学习系统,
可以创建一个给定文本提示的3D 对象。根据一篇发表在代码库旁边的论文,
Point-E 可以在一个 Nvidia V100图形处理器上在一到两分钟内生成3D 模型。
我新手做了一个red pumpkin的3D 模型,图像如下
我的第一个3D作品
它是以点为基础,没有网格。
虽然初期很差,但已看到未来,现在人工智能学习速度很快,一旦框架做,不到半年估计可以跟有经验的设计师一样做图了。
Point-E 不能创建传统意义上的3D 对象。相反,它生成点云,或者在空间中代表3D 形状的离散数据点集合,因此才有了这个厚颜无耻的缩写。(Point-E 中的“ E”是“效率”的缩写,因为它表面上比以前的3D 对象生成方法更快。)从计算的角度来看,点云更容易合成,但它们不能捕获物体的细粒度形状或纹理——这是目前Point-E 的一个关键限制。
为了绕过这个限制,Point-E 团队训练了一个额外的 AI 系统来将 Point-E 的点云转换成网格。(网格ーー定义对象的顶点、边和面的集合ーー通常用于3D 建模和设计。)但他们在论文中指出,模型有时会漏掉某些部分的物体,导致块状或扭曲的形状。
在单独的网格生成模型之外,Point-E 由两个模型组成: 文本到图像模型和图像到3D 模型。这种文本到图像的模型,类似于 OpenAI 自己的 DALL-E2和稳定扩散这样的生成艺术系统,在标签图像上进行训练,以理解文字和视觉概念之间的联系。另一方面,将一组图像与3D 对象配对,这样就可以有效地在两者之间进行转换。
当给出一个文本提示时ーー例如,“一个3D 打印齿轮,一个直径3英寸、厚度为半英寸的单个齿轮”ーー Point-E 的文本到图像模型生成一个合成渲染对象,该对象被输入到图像到3D 模型,然后生成一个点云。
OpenAI 的研究人员说,在对“数百万”3D 对象和相关元数据的数据集进行训练后,Point-E 可以生成经常匹配文本提示的彩色点云。它并不完美ーー Point-E 的图像到3D 模型有时无法从文本到图像模型理解图像,导致形状与文本提示符不匹配。不过,它的数量级比以前的最先进技术更快ーー至少 OpenAI 团队是这么认为的。
他们在论文中写道: “虽然我们的方法在这项评估中的表现不如最先进的技术,但它能在很短的时间内产生样本。”“这可能会使它在某些应用中更加实用,或者可以发现更高质量的3D 物体。”
具体有什么用途?OpenAI 的研究人员指出,Point-E 的点云可以用来制造真实世界的物体,例如通过3D 打印。有了额外的网格转换模型,该系统(一旦更加完善一些)也可以进入游戏和动画开发工作流程。
OpenAI 可能是最新一家涉足3D 对象生成领域的公司,但它肯定不是第一家。今年早些时候,谷歌发布了 DreamFusion,这是一个扩展版的 Dream Fields,这是一个生成性的3D 系统,谷歌早在2021年就推出了它。与梦场不同,DreamFusion 不需要事先训练,这意味着它可以在没有3D 数据的情况下生成对象的3D 表示。
虽然目前所有的目光都集中在2D 艺术生成器上,但模型合成人工智能可能成为下一个大的行业颠覆者。三维模型广泛应用于影视、室内设计、建筑及各种科学领域。例如,建筑公司使用它们来演示提议的建筑和景观,而工程师利用模型来设计新的设备、车辆和结构。
不过,3D 模型通常需要一段时间才能制作出来ーー可能需要几个小时,也可能需要几天。像 Point-E 这样的人工智能可以改变这种状况,如果有一天这些问题得到解决,那么 OpenAI 就可以从中获得可观的利润。
问题是,随着时间的推移,可能会出现哪种类型的知识产权纠纷。3D 模型有很大的市场,包括 CGStudio 和 CreativeMarket 在内的几个在线市场允许艺术家出售他们创作的内容。如果 Point-E 流行起来,它的模型进入市场,模型艺术家可能会提出抗议,指出有证据表明,现代生成式人工智能大量借鉴了它的训练数据(就 Point-E 而言,是现有的3D 模型)。就像《 DALL-E2》一样,《 Point-E 》没有赞扬或引用任何可能影响其后代的艺术家。