时间:2022-12-02 21:23:00作者:欧易交易所app官网下载阅读:次
计算机程序现在可以在几秒钟内创建前所未有的图像,给其中一个程序输入一些词,它通常会吐出一张与描述实际匹配的图片,无论多么奇怪。
图片并不完美。他们的手通常有多余的手指或手指,弯曲和弯曲不自然。图像生成器在文本方面存在问题,提出无意义的符号或组成自己的字母表。
但这些图像生成程序——今天看起来像玩具——可能是技术大浪潮的开始。技术人员称它们为生成模型或生成 AI。
NextView Ventures 的风险投资家大卫贝塞尔说:“在过去的三个月里,‘生成式人工智能’这个词从‘没有人讨论过这个’变成了流行语。”
在过去的一年里,生成式 AI 变得更好,它激发了人们离开工作岗位、创办新公司并梦想人工智能可以为新一代科技巨头提供动力的未来。
在过去五年左右的时间里,人工智能领域一直处于繁荣阶段,但其中大部分进步都与理解现有数据有关。AI 模型的效率迅速提高,足以识别您刚用手机拍摄的照片中是否有猫,并且足够可靠,可以每天为 Google 搜索引擎提供数十亿次搜索结果。
但是生成式 AI 模型可以产生以前没有的全新事物——换句话说,它们是在创造,而不仅仅是分析。
“即使对我来说,令人印象深刻的部分是它能够创作新的东西,” Craiyon 生成人工智能的创造者 Boris Dayma 说。“这不仅仅是创造旧图像,它是可以与以前看到的完全不同的新事物。”
红杉资本——历来是该行业历史上最成功的风险投资公司,早期押注于苹果和谷歌等公司——在其网站上的一篇博客文章中表示,“生成式人工智能有潜力产生数万亿美元的经济价值。” 这家风险投资公司预测,生成式人工智能可以改变每个需要人类创造原创作品的行业,从游戏到广告再到法律。
在一个转折中,红杉还在帖子中指出,该消息部分由 GPT-3 编写,GPT-3 是一种生成文本的生成 AI。
生成式 AI 的工作原理
图像生成使用来自称为深度学习的机器学习子集的技术,自2012 年一篇关于图像分类的具有里程碑意义的论文重新点燃了对该技术的兴趣以来,该技术推动了人工智能领域的大部分进步。
深度学习使用在大量数据集上训练的模型,直到程序理解该数据中的关系。然后该模型可用于应用程序,例如识别图片中是否有狗,或翻译文本。
图像生成器通过颠覆这个过程来工作。例如,他们不是将英语翻译成法语,而是将英语短语翻译成图像。它们通常有两个主要部分,一个处理初始短语,第二个将数据转换为图像。
第一波生成 AI 是基于一种称为 GAN 的方法,它代表生成对抗网络。GAN 曾被用于生成不存在的人的照片的工具中。从本质上讲,它们的工作原理是让两个 AI 模型相互竞争,以更好地创建符合目标的图像。
较新的方法通常使用转换器,这在2017 年 Google 论文中首次描述。这是一种新兴技术,可以利用可能花费数百万美元来训练的更大数据集。
第一个引起广泛关注的图像生成器是 DALL-E,这是一个由硅谷资金充足的初创公司 OpenAI 于 2021 年宣布的项目。OpenAI 今年发布了更强大的版本。
“有了 DALL-E 2,那真的是我们跨越了恐怖谷的时刻,”专注于生成 AI 的开发人员 Christian Cantrell 说。
另一个常用的基于 AI 的图像生成器是Craiyon,以前称为 Dall-E Mini,可在网络上获得。用户可以在浏览器中输入一个短语并在几分钟内看到它。
据 Dayma 称,自 2021 年 7 月推出以来,它现在每天生成约 1000 万张图像,增加了多达 10 亿张以前从未存在过的图像。在今年早些时候使用量猛增后,他让 Craiyon 成为他的全职工作。他说他专注于使用广告来保持网站对用户免费,因为该网站的服务器成本很高。
一个专注于 Craiyon 上最奇怪和最有创意的图片的 Twitter 帐户拥有超过 100 万的关注者,并定期提供越来越不可能或荒谬的场景的图片。例如:带有水龙头的意大利水槽,可以分配马力拉酱或在越南战争中战斗的小黄人。
但启发最多的程序是Stable Diffusion,它于 8 月向公众发布。它的代码在 GitHub 上可用,并且可以在计算机上运行,而不仅仅是在云中或通过编程接口。这激发了用户为自己的目的调整程序的代码,或者在它之上构建。
例如,Stable Diffusion通过插件集成到 Adobe Photoshop中,允许用户生成背景和图像的其他部分,然后他们可以使用图层和其他 Photoshop 工具直接在应用程序内部进行操作,从而将生成人工智能从产生成品的东西转变为图像转换成可供专业人员使用的工具。
“我想与创意专业人士会面,我想让他们将 AI 带入他们的工作流程,而不是破坏他们的工作流程,”插件开发人员 Cantrell 说。
Cantrell,20 年的Adobe在今年离职专注于生成 AI 之前,这位资深人士表示,该插件已被下载数万次。艺术家告诉他,他们以他无法预料的无数方式使用它,例如为哥斯拉制作动画或以艺术家可以想象的任何姿势创作蜘蛛侠的照片。
“通常,你是从灵感开始的,对吧?你在看情绪板之类的东西,”坎特雷尔说。“所以我对第一个版本的初步计划,让我们克服空白画布的问题,你输入你的想法,描述你的想法,然后我会给你一些东西,对吧?”
使用生成式 AI 的新兴艺术是如何构建“提示”或导致图像的单词串。一个名为Lexica的搜索引擎对Stable Diffusion 图像和可用于生成它们的确切单词字符串进行编目。
Reddit 和 Discord 上出现了一些指南,描述了人们发现的用来输入他们想要的图片的技巧。
初创公司、云提供商和芯片制造商可能会蓬勃发展
一些投资者将生成式人工智能视为一种潜在的变革性平台转变,就像智能手机或早期的网络一样。这类转变极大地扩大了可能使用该技术的人的总体潜在市场,从少数敬业的书呆子转变为商业专业人士——最终是其他所有人。
“这并不是说人工智能在此之前就没有出现过——也不是说我们在 2007 年之前就没有移动设备,”种子投资人贝塞尔说。“但就像现在一切都融合在一起的时刻。真实的人,如最终用户消费者,可以试验并看到与以前不同的东西。”
Cantrell 认为生成机器学习类似于一种更基础的技术:数据库。最初由甲骨文等公司开创在 1970 年代,作为在清晰划定的行和列中存储和组织离散信息位的一种方式——想想一个巨大的 Excel 电子表格,数据库已经被重新设想为存储来自网络的每种可能类型的计算应用程序的每种类型的数据到移动。
“机器学习有点像数据库,其中数据库是 web 应用程序的巨大解锁。几乎你或我在我们生活中使用过的每个应用程序都在数据库之上,”Cantrell 说。“没有人关心数据库是如何工作的,他们只知道如何使用它。”
Compound VC 的执行合伙人迈克尔·登普西(Michael Dempsey)表示,以前仅限于实验室的技术进入主流的时刻“非常罕见”,并吸引了风险投资者的大量关注,他们喜欢在可能巨大的领域下注。尽管如此,他警告说,生成人工智能的这一时刻可能最终会成为一个接近炒作周期高峰的“好奇阶段”。在这个时代成立的公司可能会失败,因为他们不专注于企业或消费者愿意支付的特定用途。
该领域的其他人认为,今天开创这些技术的初创公司最终可能会挑战目前主导人工智能领域的软件巨头,包括谷歌, Facebomxc 父 Meta和微软,为下一代科技巨头铺平道路。
Hugging Face 的首席执行官克莱门特·德朗格 (Clement Delangue) 说:“将会有一群价值数万亿美元的公司——整整一代初创公司将在这种新的技术开发方式上发展。” - 训练模型,包括用于 Craiyon 和稳定扩散的模型。它的目标是让程序员更容易构建人工智能技术。
其中一些公司已经在进行大量投资。
在今年早些时候从包括 Lux Capital 和红杉资本在内的投资者那里筹集到资金后, Hugging Face 的估值为 20 亿美元;该领域最著名的初创公司 OpenAI已从微软和 Khosla Ventures获得超过10 亿美元的资金。
与此同时,据《福布斯》报道,Stable Diffusion 的制造商 Stability AI 正在洽谈以高达 10 亿美元的估值筹集风险投资。Stability AI 的代表拒绝置评。
亚马逊、微软和谷歌等云提供商也可以从中受益,因为生成式 AI 的计算量非常大。
元和谷歌已经聘请了该领域的一些最杰出的人才,希望能够将进步融入公司产品中。9 月,Meta 宣布了一项名为“ Make-A-Video ”的 AI 程序,该程序通过生成视频而不仅仅是图像,使该技术更进一步。
“这是相当惊人的进步,”Meta 首席执行官马克扎克伯格在他的 Facebomxc 页面上的一篇帖子中说。“生成视频比生成照片要困难得多,因为除了正确生成每个像素之外,系统还必须预测它们将如何随时间变化。”
周三,谷歌与 Meta 相匹配,并宣布并发布了一个名为Phenaki的程序的代码,该程序也可以将文本转换为视频,并且可以生成几分钟的镜头。
繁荣还可能提振英伟达等芯片制造商,超微和英特尔,这使得先进的图形处理器非常适合训练和部署 AI 模型。
在上周的一次会议上,英伟达首席执行官黄仁勋强调生成人工智能是该公司最新芯片的关键用途,称这类程序可能很快会“彻底改变通信”。
生成式 AI 的可盈利最终用途目前很少见。今天的很多兴奋都围绕着免费或低成本的实验。例如,一些作者已经尝试使用图像生成器为文章制作图像。
英伟达工作的一个例子是使用模型生成可以填充虚拟游戏世界的人、动物、车辆或家具的新 3D 图像。
伦理道德问题
最终,每个开发生成 AI 的人都必须解决图像生成器带来的一些伦理问题。
首先是就业问题。尽管许多程序需要强大的图形处理器,但计算机生成的内容仍然比专业插画师的工作便宜得多,后者每小时可能要花费数百美元。
这可能会给艺术家、视频制作人和其他从事创造性工作的人带来麻烦。例如,一个人的工作是为宣传片选择图像或创建营销材料,很快就会被计算机程序取代。
“事实证明,机器学习模型可能会开始比那个人更好、更快、更便宜几个数量级,”Compound VC 的 Dempsey 说。
关于原创性和所有权也存在复杂的问题。
生成式 AI 接受了大量图像的训练,并且在该领域和法庭上仍在争论原始图像的创建者是否对生成的图像具有原始创建者的风格有任何版权主张。
一位艺术家使用主要由名为 MidJourney 的生成式人工智能创建的图像赢得了科罗拉多州的一场艺术比赛,尽管他在获胜后接受采访时表示,他是在从他生成的数百张图像中选择一张,然后在 Photoshop 中对其进行调整后处理的。
Stable Diffusion 生成的一些图像似乎带有水印,表明部分原始数据集受版权保护。一些提示指南建议在提示中使用特定在世艺术家的姓名,以获得更好的模仿该艺术家风格的结果。
上个月,Getty Images禁止用户将生成的 AI 图像上传到其股票图像数据库,因为它担心围绕版权的法律挑战。
图像生成器还可用于创建商标角色或对象的新图像,例如小黄人、漫威角色或《权力的游戏》中的王座。
随着图像生成软件变得越来越好,它也有可能欺骗用户相信虚假信息或显示从未发生过的事件的图像或视频。
开发人员还必须应对这样一种可能性,即在大量数据上训练的模型可能存在与数据中包含的性别、种族或文化相关的偏见,这可能导致模型在其输出中显示出这种偏见。就其本身而言,模型共享网站 Hugging Face发布了道德通讯等材料,并就人工智能领域的负责任发展进行了会谈。
“我们在这些模型中看到的是短期和现有挑战之一,因为它们是概率模型,在大型数据集上进行训练,它们往往会编码很多偏差,”德朗格说,并提供了一个例子生成式 AI 将“软件工程师”描绘成白人。