酷睿轻薄本上跑 Stable Diffusion，英特尔这项绝活背后的价值

观点

2023

11/16

16:31

亚设网

自从 ChatGPT 火热出圈，生成式 AI 大模型在全球掀起了新的技术浪潮。而 AI 作为数字化未来最重要的底层技术，也必然会对人类社会的生活、生产带来颠覆性的改变。

但是就现阶段而言，AI 距离真正改变世界还有很长的路要走，推动生成式 AI 大规模扩展和应用，也还面临很多挑战。

比如，如今生成式 AI 大模型产品主要部署在云端，在传统认知上，云端能够提供远超终端的算力和存储，但现实并非绝对，我们在使用这些云端大模型产品时其实也经常遇到响应缓慢、生成失败等问题，这是因为在使用高峰期，即便是云端服务器也顶不住极端的算力需求。

而且，对于服务提供商来说，生成式 AI 每一次搜索查询，成本都是传统搜索方法的 10 倍。目前每天有超过 100 亿次的搜索查询产生，这样它对云端算力带来的负载以及产生的成本规模难以想象。

在这种情况下，生成式 AI 向终端侧发展，就显得尤为重要了。

尽管单一终端能提供的算力显然无法和云端服务器相比，但如果把全球数十亿甚至数百亿终端的算力都调用起来，那无疑就可以大大分流云端的压力。这也就是 AI 要往终端侧发展的基本逻辑。

更重要的是，在半导体产业的努力下，这几年终端的 AI 性能和算力也在突飞猛进，就拿生产力担当的 PC 来说，行业引领者英特尔就为生成式 AI 在 PC 终端上的落地做出了突出的贡献。

比如，在我们传统的认知里，运行多模态的 AI 大模型必须要有超大显存的专业显卡加持以完成大量的 AI 并行运算，那么，对于轻薄笔记本或者消费级台式机来说，是否也能支持 AI 大模型的顺利运行呢？这其实就是英特尔在终端侧 AIGC 努力的方向之一。

目前在硬件上，英特尔第 12、13 代酷睿处理器以及英特尔锐炫显卡都可以满足 AIGC 在 PC 本地端的高速算力需求。

针对锐炫显卡，首先英特尔在持续增强其本身的性能体验。自推出以来，英特尔锐炫显卡已累计发布超过 20 版驱动更新，今年早些时候，英特尔还通过 Game On 驱动的发布，提升了锐炫显卡在运行一系列备受欢迎的 DX11 游戏时的性能，可以让游戏帧率得到平均约 19% 的帧率提神以及平均约 20% 的 99th Percentile 帧率流畅度提升。

而在今年 5 月，英特尔还展示了用生成式 AI 加速创作文生图的示例，基于英特尔 OpenVINO，AI 绘图开源模型 Stable Diffusion 可以使用开源图片编辑软件 GIMP 在英特尔锐炫 A750、A770 等显卡上流畅运行。只需要输入简单的文本，就能智能实现创意绘图，对于图片创作者来说很实用。

今年 8 月，英特尔又展示了基于 OpenVINO PyTorch 后端的方案，用 Pytorch API 让社区开源模型在英特尔的客户端处理器、集成显卡、独立显卡和专用 AI 引擎上很好的运行。

比如针对开源图像生成模型 Stable Diffusion，英特尔就启用了 OpenVINO 的加速，他们开发了一套 AI 框架，通过一行代码的安装，就可以加速 PyTorch 模型的运行。通过 Stable Diffusion 的 WebUI，可以在锐炬集成显卡和 Arc 独立显卡上运行 Stable Diffusion Automatic1111。

这其中，尤其是让 Stable Diffusion 在搭载集成显卡的轻薄本上运行，可以说是一件具有重要意义的事情。

比如这里，IT之家就选择一款轻薄本来做测试，这款产品是通过英特尔 Evo 平台认证的华硕破晓 Air，搭载英特尔 13 代酷睿 i7-1355U 处理器，锐炬 Xe 集成式显卡，16GB LPDDR5 内存。

可以看到 Stable Diffusion 在华硕破晓 Air 集成显卡上的表现效果。96EU 版本的英特尔锐炬 Xe 显卡强大的算力，可以支持 Stable Diffusion 软件上运行 FP16 精度的模型，快速生成高质量图片。小编让 Stable Diffusion 生成一张“有黑色耳朵的小狗”，华硕破晓 Air 只用了大约十几秒的时间就生成出来了。这是一幅 512×512 的图，如果想画的更好，你还可以自己调节参数。

再比如让 Stable Diffusion 生成一张“一大堆煎饼垒起来的食物摄影”，在华硕破晓 Air 上同样也可以轻松生成出来，并且是在实现的。

通常我们会认为，轻薄本不太适合做 AI 方面的工作，因为它的配置比较低。但通过上面 Stable Diffusion 的演示，相信大家可以看到 Evo 高性能轻薄本确实可以胜任这些简单的 AIGC 图片创作工作。

如果放在过去，我们很难想象轻薄本可以拥有这样的性能，但随着 13 代酷睿处理器在性能、功耗比方面的进步，以及锐炬 Xe Graphics (96EU) 在 FP16、FP32 浮点性能的大幅提升，同时加入了 INT8 整数计算能力，这些都大大增强了 GPU 整体的 AI 图形计算能力。这也就是华硕破晓 Air 这样的轻薄本也能在本地侧很好地运行 Stable Diffusion 的重要因素。

值得一提的是，在英特尔下一代酷睿处理器 Meteor Lake 中，GPU 核显性能还会得到进一步提升，将拥有 8 个 Xe GPU 核心 128 个渲染引擎，更增加了 8 个硬件的光追单元，还会引入 Arc 显卡的异步拷贝，乱序采样等功能，也对 DX12U 做了优化。

不仅如此，英特尔还在 Meteor Lake 中加入了集成式 NPU 单元，实现更高效能的 AI 计算，它包含了 2 个神经计算引擎，能够更好地支持包括生成式 AI、计算机视觉、图像增强和协作 AI 方面的内容。

同时除了 NPU，CPU 和 GPU 也都可以进行 AI 运算，不同场景下会用不同的 AI 单元去应对，彼此协调，如此一来，其整体能耗比相比前代最多可以提升 8 倍之多。因此，未来搭载 Meteor Lake 处理器的轻薄本在本地 AIGC 创作方面的表现会更加令人期待。

此外，如果追求更好性能，大家也可以选择英特尔锐炫 Arc 独显的设备，在 Arc 独显上跑 Stable Diffusion，速度会快很多。比如今年早些时候英特尔也还展示了在搭载 i7-13700K CPU + Arc A770 独显的机器上运行 Stable Diffusion “图生图”、“人物动作三维数字重建”的效果，速度非常快。

总之，未来对于 PC 来说，所谓的性能将不仅局限在处理器的核心数、线程数、主频这些传统参数，而更在于 AI 运算和创作能力是否强大，换句话说，AI 定义芯片的时代正在到来，而 AI PC 将真正帮助我们实现生产力的大解放。因此，英特尔对于实现终端侧 AIGC 所做的努力无疑具有重要意义，他们为用户提供更智能、高效的移动计算体验，推动人工智能技术的发展和应用走向终端和云端协同的新阶段。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

THE END

Diffusion Stable 本上轻薄酷睿

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表亚设网的观点和立场。