1.极智AI | 算法部署中需要注意的源码Lazy Loading
2.高度优化,京东AI开源的策略二值网络inference框架
3.腾讯T2I-adapter源码分析(3)-训练源码分析
4.大神用Python做个AI出牌器,实现财富自由附源码
5.阿尔法元之五子棋源码解读(AlphaZero-Gomoku)
6.OpenAI/Triton MLIR 第零章: 源码编译
极智AI | 算法部署中需要注意的源码Lazy Loading
懒加载策略在算法部署中尤为重要,尤其是策略在算力芯片场景。此策略类似于前端开发中的源码懒加载,旨在减少服务器压力和流量,策略全屏相册源码通过在需要时加载资源,源码而非初始加载时就全部加载,策略以提高效率并降低资源浪费。源码例如,策略在使用英伟达系列GPU进行模型推理时,源码首次推理可能需要较长时间,策略随后的源码推理则迅速变快,这实际上反映了一个突变的策略过程。在这一过程中,源码大量时间被消耗在了内核加载上。
懒加载在CUDA编程中也是一个核心概念,它延迟了CUDA模块和内核的加载,直至实际执行时。在程序初始化时,并非所有包含的内核都会被提前加载,只有在使用时才会加载相应的内核。这种策略能够显著节省初始化时间,减少内存占用,无论是GPU内存还是主机内存。
值得注意的是,懒加载不是TensorRT层面的概念,也不是GPU硬件层面的概念,它是CUDA层面的概念。在CUDA生态系统中,内核的加载和使用之间存在明确的关联。在国产AI芯片如天数智芯、登临等上进行算法性能验证时,建议先进行CUDA预热,或者忽略首次推理性能,仅关注后续稳定性能,以获得更可靠的性能数据。
本文通过测试升腾的Atlas推理卡和算能的SC7推理卡,展示了在非CUDA生态的设备上,首次推理性能与后续推理性能的对比。结果表明,升腾和算能卡的imdisk源码解读首次推理性能与后续推理性能相当,这可能意味着这些卡在首次推理时并未采用懒加载策略。
总的来说,了解和应用懒加载策略在算法部署中至关重要,它能够优化资源使用,提高系统效率,尤其是在处理大规模数据和复杂模型时。在选择和优化算力资源时,考虑懒加载策略的应用,将有助于提升性能并降低成本。如果您对这一主题感兴趣,欢迎关注我的公众号[极智视界],获取更多关于AI领域的实用分享和项目源码。
高度优化,京东AI开源的二值网络inference框架
京东 AI 开源了一个高度优化的针对 ARM 指令集的二值网络推理框架 dabnn。dabnn 是首个针对二值网络的开源推理框架,相较于 BMXNet,其速度提升了一个数量级。dabnn 已在 ACM MM 的 Open Source Software Competition 中被接收。
二值网络是一种特殊神经网络,权重和中间特征被压缩至 1 位,实现了网络量化到极致。二值网络的优势在于 1 位乘加操作能通过位运算高效实现,使其能在主流硬件平台上无缝运行。相比之下,三值、2 位、4 位等量化网络需特殊硬件平台支持,且在计算效率上无法与二值网络匹敌。
在二值网络领域,已有 BMXNet、BitStream、BitFlow 等推理框架。然而,这些框架或无源代码,或速度较慢。dabnn 则填补了这一空白,提供了针对 ARM 指令集高度优化的推理框架。论文证实了 dabnn 的高效性,并在 ACM MM 的 Open Source Software Competition 中被接收。
dabnn 通过使用 Binary Direct Convolution 实现二值卷积,而非 BMXNet 使用的pinetwork溯源码 BGEMM。这种策略减少了 addv 指令的使用,优化了 ARM 架构下的计算过程。实验对比显示,dabnn 在 3x3 卷积上的推理速度相较于 TensorFlow Lite 提升了 8~ 倍,相较于 BMXNet 提升了 7~ 倍。
为方便使用,dabnn 开源了将 ONNX 模型转换为 dabnn 模型的工具。这一功能使得 dabnn 可与几乎所有训练框架兼容。与 BMXNet 相比,dabnn 提供了更广泛的模型转换支持。
自发布以来,dabnn 已被多个二值网络研究项目采用,包括商汤科技的 IR-Net 和北航等机构的 Balanced Binary Neural Networks with Gated Residual。这些应用展示了 dabnn 在二值网络领域的重要性与实用性。
腾讯T2I-adapter源码分析(3)-训练源码分析
随着stable-diffusion和midjourney等AI技术展现令人惊叹的艺术创作,人们对AI可控绘图的追求日益高涨。为提升AI图像生成的可控性,Controlnet和T2I-adapter等解决方案应运而生。系列文章将从T2I-adapter的源码出发,深入剖析其训练部分的实现原理。
本篇我们将聚焦于训练源码的解析,通过代码结构的梳理,了解T2I-Adapter的训练流程。
训练代码的运行涉及数据处理、模型加载、优化器设置以及实际训练过程。在第一部分,我们首先设置参数并加载数据,如DepthDataset,它从txt文件中读取、对应的深度图和文本描述。
在模型加载阶段,我们区分了stable-diffusion模型和adapter。stable-diffusion模型加载时,其配置与推理阶段有所差异,如增加调度器参数、提高精度、调整分辨率和训练相关参数。adapter模型的加载则遵循推理过程中的初始化方法,通过构建不同模块来实现。
训练过程中,打匹配源码adapter模型的关键结构包括下采样、卷积和ResnetBlock的使用,相比controlnet,T2I-adapter的参数更少,没有注意力层,这使得训练更为高效。模型放入GPU后,使用adamW优化器进行训练,同时设置学习率和数据保存路径。
状态恢复部分,程序会判断是否从头开始或恢复训练,设置log信息。接下来,代码进入实际的训练循环,包括条件编码、隐藏状态生成、adapter结果附加至sd模型以及adapter梯度计算。
loss函数定义在模型配置中,采用L2损失来衡量生成图像与给定时间点加噪ground truth的接近程度。训练过程中,loss计算和模型保存都在代码中明确体现。
总的来说,T2I-adapter的训练源码展示了精细的结构和参数设置,确保了AI绘画的可控性和性能。在AI艺术的探索中,每一行代码都承载着技术进步的点滴痕迹。
大神用Python做个AI出牌器,实现财富自由附源码
在互联网上,我注意到一个有趣的开源项目——快手团队的DouZero,它将AI技术应用到了斗地主游戏中。今天,我们将通过学习如何使用这个原理,来制作一个能辅助出牌的欢乐斗地主AI工具,也许它能帮助我们提升游戏策略,迈向财富自由的境界。 首先,让我们看看AI出牌器的实际运作效果: 接下来,我们逐步构建这个AI出牌器的制作过程:核心功能与实现步骤
UI设计:首先,我们需要设计一个简洁的用户界面,使用Python的pyqt5库,如下是指标源码引入关键代码:
识别数据:在屏幕上抓取特定区域,通过模板匹配识别AI的手牌、底牌和对手出牌,这部分依赖于截图分析,核心代码如下:
地主确认:通过截图确定地主身份,代码负责处理这一环节:
AI出牌决策:利用DouZero的AI模型,对每一轮出牌进行判断和决策,这部分涉及到代码集成,例如:
有了这些功能,出牌器的基本流程就完成了。接下来是使用方法:使用与配置
环境安装:你需要安装相关库,并配置好运行环境,具体步骤如下:
位置调整:确保游戏窗口设置正确,AI出牌器窗口不遮挡关键信息:
运行测试:完成环境配置后,即可启动程序,与AI一起战斗:
最后,实际操作时,打开斗地主游戏,让AI在合适的时间介入,体验AI带来的智慧策略,看看它是否能帮助你赢得胜利!阿尔法元之五子棋源码解读(AlphaZero-Gomoku)
阿尔法元在五子棋领域的源码解析揭示了强化学习在简单游戏中的深度应用。相较于围棋,五子棋虽简单,但其源码分析同样能让我们深入理解强化学习的原理。AlphaZero,最初凭借阿尔法狗的深度学习技术,后在没有人类干预的情况下,通过三天自学围棋并超越前辈,展现了人工智能的新里程碑。
本文着重探讨AlphaZero在五子棋上的具体应用,源码可在GitHub上获取,路径公开。理解该项目的前提是对强化学习有一定基础,如马尔可夫决策过程和蒙特卡洛方法。项目主要包含策略价值网络、蒙特卡洛树搜索算法和训练脚本,它们共同构建了强化学习与深度学习的交互过程。
项目的架构包括游戏处理、MCTS算法实现、策略价值网络训练以及人机对战脚本。Game.py定义了棋盘和游戏逻辑,mcts_alphaZero.py与mcts_pure.py则是MCTS玩家的实现,分别对应AlphaZero和纯MCTS版本。policy_value_net.py负责网络模型,根据不同框架实现,如Tensorflow或Pytorch。train.py则实现了AlphaZero的训练流程,通过模拟对弈和数据增强来优化网络。
运行项目,你可以通过human_play.py与预训练的AI对战,感受强化学习的力量。源码剖析中,human_play.py脚本的核心是创建棋盘、玩家,并通过循环进行人机对弈,直到游戏结束。
OpenAI/Triton MLIR 第零章: 源码编译
本文旨在深入探讨开源AI项目OpenAI Triton MLIR,着重介绍Triton作为编程语言与编译器在GPU加速计算领域的应用与优化。Triton为用户提供了一种全新的方式,通过将其后端接入LLVM IR,利用NVPTX生成GPU代码,进而提升计算效率。相较于传统CUDA编程,Triton无需依赖NVIDIA的nvcc编译器,直接生成可运行的机器代码,体现出其在深度学习与数据科学领域的高性能计算潜力。Triton不仅支持NVIDIA GPU,还计划扩展至AMD与Intel GPU,其设计基于MLIR框架,通过Dialect支持多样化后端。本文将从源码编译角度出发,逐步解析Triton的设计理念与优化策略,为研究编译技术和系统优化的工程师提供宝贵资源。
首先,需要访问Triton的官方网站,克隆其官方代码库,以便后续操作。构建过程涉及两个重要依赖:LLVM与pybind。LLVM作为Triton的核心后端,通过将高级Python代码逐步转换至LLVM IR,最终生成GPU可运行代码,体现了其在计算优化领域的优势。pybind组件则用于封装C++/CUDA或汇编代码,实现Python DSL与高性能组件的无缝集成。
接下来,将LLVM与pybind分别编译安装,通过手动配置指定路径,确保编译过程顺利进行。LLVM的安装对于基于Triton进行二次开发的工程师和研究人员至关重要,因为它为Triton提供了强大的计算基础。在特定的commit ID下编译Triton,确保与后续版本兼容。
在编译过程中,配置pybind同样至关重要,它允许用户通过Python API调用高性能组件,实现自动化生成高性能算子。完成编译后,生成的.so文件(libtriton.so)为后续Triton的Python接口提供了支持。
将libtriton.so移动至triton/python/triton/_C目录下,确保Python路径正确配置,实现无缝导入与调用。通过简单的import triton命令,即可开启Triton的开发之旅。验证Triton性能,可以选择tutorials目录下的示例代码,如-matrix-multiplication.py,通过运行该脚本,观察Triton在GPU上的性能表现。
Triton在NVGPU上的成熟映射路线,从抽象的Python DSL到贴近GPU层面的IR,最终生成高效机器代码,体现了其在高性能计算领域的优越性。Triton未来的发展蓝图将支持更多前端语言,对接不同硬件厂商的硬件,实现高效映射,满足多样化计算需求。
基于AI或传统编码方法的图像压缩开源算法汇总
探索图像压缩技术的前沿,融合AI与传统编码策略,我们精选了多项开创性研究成果,旨在提升图像压缩的效率与视觉质量。让我们一同探索这些卓越的算法:Li Mu等人的突破:年CVPR大会上,他们提出了《Learning Convolutional Networks for Content-weighted Image Compression》(论文链接),借助深度学习的自编码器,赋予内容感知,通过优化编码器、解码器和量化器,赋予图像在低比特率下更清晰的边缘和丰富纹理,减少失真。其开源代码可于这里找到,基于Caffe框架。
Conditional Probability Models的革新:Mentzer等人在年的CVPR展示了他们的工作,通过内容模型提升深度图像压缩的性能,论文名为《Conditional Probability Models for Deep Image Compression》(论文链接)。
利用深度神经网络的力量,研究者们正在重新定义压缩标准。例如,Toderici等人在年的CVPR中展示了《Full Resolution Image Compression with Recurrent Neural Networks》,使用RNN构建可变压缩率的系统,无需重新训练(论文链接)。其开源代码可在GitHub找到,基于PyTorch 0.2.0。 创新性的混合GRU和ResNet架构,结合缩放加性框架,如Prakash等人年的工作所示,通过一次重建优化了率-失真曲线(论文链接),在Kodak数据集上,首次超越了JPEG标准。开源代码见这里,基于Tensorflow和CNN。 AI驱动的图像压缩,如Haimeng Zhao和Peiyuan Liao的CAE-ADMM,借助ADMM技术优化隐性比特率,提高了压缩效率与失真性能(论文),对比Balle等人的工作(论文)有所突破。 生成对抗网络(GAN)的优化应用,如.论文,展示了在低比特率下图像压缩的显著改进,开源代码可在GitHub找到,它以简洁的方式实现高图像质量。 深度学习驱动的DSSLIC框架,通过语义分割与K-means算法,提供分层图像压缩的高效解决方案,开源代码在此,适用于对象适应性和图像检索。 传统方法如Lepton,通过二次压缩JPEG,节省存储空间,Dropbox的开源项目链接,适合JPEG格式存储优化。 无损图像格式FLIF,基于MANIAC算法,超越PNG/FFV1/WebP/BPG/JPEG,支持渐进编码,详情可在官方网站查看。 Google的Guetzli,以高效压缩提供高画质JPEG,体积比libjpeg小-%,适用于存储优化(源码)。 这些创新的算法和技术,展示了AI和传统编码方法在图像压缩领域的融合与进步,不仅提升了压缩效率,更为图像的存储和传输提供了前所未有的可能性。AI与PDE(七):AFNO模型的源代码解析
本文旨在解析AFNO模型的源代码,帮助读者理解模型细节与主干结构。首先,AFNO模型的主干框架在afnonet.py文件中定义,通过类AFNONet实现。模型的核心功能封装在多个类与函数中,依据代码注释逐步解析。
在代码中,forward_features函数负责模型的核心逻辑,包括patch切割与mixing过程。这些操作由PatchEmbed类实现。位置编码self.pos_embed通过高斯初始化得到,增加模型的表示能力。
关键模块AFNO2d位于代码中,它基于FNO的原理,负责处理输入数据。AFNO2d模块在forward_features函数中通过循环调用,实现数据的转换与混合。
经过数个L layer处理后,模型进入类似解码器的结构,用于将中间结果映射为目标结果。这一过程通过self.head(x)实现,以解决特定分类问题。
本文通过梳理代码流程与结构图,直观展示了AFNO模型的工作原理。读者可参考AFNO的GitHub源代码与论文,深入理解细节。后续文章将继续探讨基于AFNO模型框架的其他应用,如FourCastNet。
图解UE4源码AI行为树系统 其二 一棵行为树是怎么被运行起来的
让我们深入理解UE4中AI行为树的运行机制。首先,行为树的运行流程大致分为以下几个步骤:发起执行: 可以通过AAIController::RunBehaviorTree()函数或Run Behavior任务节点启动新树。
抽象逻辑理解: 从Run Behavior任务节点出发,关键在于OwnerComp.PushInstance(*BehaviorAsset),这涉及子树的监控和结束条件。
检查与加载: 在运行前,UBehaviorTreeComponent会对子树资源、全局UBehaviorTreeManager、发起节点的父节点意愿进行检查。只有当所有条件满足,才会加载行为树资源。
内存计算与初始化: 加载后,通过FNodeInitializationData计算节点的执行顺序、内存需求,注入顶层decorator,然后设置初始值和内存偏移。
实例化与缓存: 将计算结果的树模板存入缓存,供后续使用。加载完成后,行为树实例会被添加到InstanceStack并标记为活跃。
新树加载并初始化完毕后,执行流程开始于根节点的服务调用和根节点的执行。每个节点的详细运行机制会在后续内容中进一步探讨。理解这些步骤有助于我们更好地掌握行为树的控制和执行逻辑。