1.游戏引擎随笔 0x36:UE5.x Nanite 源码解析之可编程光栅化(下)
2.源码为医院产科量身定制的源码网信息管理系统:数字化产科管理平台
3.期货软件TB系统源代码解读系列36-R-Breaker系统
4.经常逛的行业相关论坛/网站有哪些?
5.c++学习论坛推荐 强力推荐之美
游戏引擎随笔 0x36:UE5.x Nanite 源码解析之可编程光栅化(下)
书接上回。
在展开正题之前,源码网先做必要的源码网铺垫,解释纳尼特(Nanite)技术方案中的源码网Vertex Reuse Batch。纳尼特在软光栅路径实现机制中,源码网将每个Cluster对应一组线程执行软光栅,源码网c session源码每ThreadGroup有个线程。源码网在光栅化三角形时访问三角形顶点数据,源码网但顶点索引范围可能覆盖整个Cluster的源码网个顶点,因此需要在光栅化前完成Cluster顶点变换。源码网纳尼特将变换后的源码网顶点存储于Local Shared Memory(LDS)中,进行组内线程同步,源码网确保所有顶点变换完成,源码网光栅化计算时直接访问LDS,源码网实现软光栅高性能。源码网
然而,在使用PDO(Masked)等像素可编程光栅化时,纳尼特遇到了性能问题。启用PDO或Mask时,可能需要读取Texture,根据读取的Texel决定像素光栅化深度或是否被Discard。读取纹理需计算uv坐标,而uv又需同时计算重心坐标,增加指令数量,降低寄存器使用效率,影响Active Warps数量,降低延迟隐藏能力,导致整体性能下降。复杂材质指令进一步加剧问题。
此外,当Cluster包含多种材质时,同一Cluster中的三角形被重复光栅化多次,尤其是材质仅覆盖少数三角形时,大量线程闲置,浪费GPU计算资源。
为解决这些问题,纳尼特引入基于GPU SIMT/SIMD的Vertex Reuse Batch技术。技术思路如下:将每个Material对应的三角形再次分为每个为一组的Batch,每Batch对应一组线程,fooous源码每个ThreadGroup有个线程,正好对应一个GPU Warp。利用Wave指令共享所有线程中的变换后的顶点数据,无需LDS,减少寄存器数量,增加Warp占用率,提升整体性能。
Vertex Reuse Batch技术的启用条件由Shader中的NANITE_VERT_REUSE_BATCH宏控制。
预处理阶段,纳尼特在离线时构建Vertex Reuse Batch,核心逻辑在NaniteEncode.cpp中的BuildVertReuseBatches函数。通过遍历Material Range,统计唯一顶点数和三角形数,达到顶点去重和优化性能的目标。
最终,数据被写入FPackedCluster,根据材质数量选择直接或通过ClusterPageData存储Batch信息。Batch数据的Pack策略确保数据对齐和高效存储。
理解Vertex Reuse Batch后,再来回顾Rasterizer Binning的数据:RasterizerBinData和RasterizerBinHeaders。在启用Vertex Reuse Batch时,这两者包含的是Batch相关数据,Visible Index实际指的是Batch Index,而Triangle Range则对应Batch的三角形数量。
当Cluster不超过3个材质时,直接从FPackedCluster中的VertReuseBatchInfo成员读取每个材质对应的BatchCount。有了BatchCount,即可遍历所有Batch获取对应的三角形数量。在Binning阶段的ExportRasterizerBin函数中,根据启用Vertex Reuse Batch的条件调整BatchCount,表示一个Cluster对应一个Batch。
接下来,遍历所有Batch并将其对应的Cluster Index、Triangle Range依次写入到RasterizerBinData Buffer中。启用Vertex Reuse Batch时,通过DecodeVertReuseBatchInfo函数获取Batch对应的三角形数量。对于不超过3个材质的Cluster,DecodeVertReuseBatchInfo直接从Cluster的locale 源码VertReuseBatchInfo中Unpack出Batch数据,否则从ClusterPageData中根据Batch Offset读取数据。
在Binning阶段的AllocateRasterizerBinCluster中,还会填充Indirect Argument Buffer,将当前Cluster的Batch Count累加,用于硬件光栅化Indirect Draw的Instance参数以及软件光栅化Indirect Dispatch的ThreadGroup参数。这标志着接下来的光栅化Pass中,每个Instance和ThreadGroup对应一个Batch,以Batch为光栅化基本单位。
终于来到了正题:光栅化。本文主要解析启用Vertex Reuse Batch时的软光栅源码,硬件光栅化与之差异不大,此处略过。此外,本文重点解析启用Vertex Reuse Batch时的光栅化源码,对于未启用部分,除可编程光栅化外,与原有固定光栅化版本差异不大,不再详细解释。
CPU端针对硬/软光栅路径的Pass,分别遍历所有Raster Bin进行Indirect Draw/Dispatch。由于Binning阶段GPU中已准备好Draw/Dispatch参数,因此在Indirect Draw/Dispatch时只需设置每个Raster Bin对应的Argument Offset即可。
由于可编程光栅化与材质耦合,导致每个Raster Bin对应的Shader不同,因此每个Raster Bin都需要设置各自的PSO。对于不使用可编程光栅化的Nanite Cluster,即固定光栅化,为不降低原有性能,在Shader中通过两个宏隔绝可编程和固定光栅化的执行路径。
此外,Shader中还包括NANITE_VERT_REUSE_BATCH宏,实现软/硬光栅路径、Compute Pipeline、Graphics Pipeline、Mesh Shader、Primitive Shader与材质结合生成对应的Permutation。这部分代码冗长繁琐,不再详细列出讲解,luadec 源码建议自行阅读源码。
GPU端软光栅入口函数依旧是MicropolyRasterize,线程组数量则根据是否启用Vertex Reuse Batch决定。
首先判断是否使用Rasterizer Binning渲染标记,启用时根据VisibleIndex从Binning阶段生成的RasterizerBinHeaders和RasterizerBinData Buffer中获取对应的Cluster Index和光栅化三角形的起始范围。当启用Vertex Reuse Batch,这个范围是Batch而非Cluster对应的范围。
在软光栅中,每线程计算任务分为三步。第一步利用Wave指令共享所有线程中的Vertex Attribute,线程数设置为Warp的Size,目前为,每个Lane变换一个顶点,最多变换个顶点。由于三角形往往共用顶点,直接根据LaneID访问顶点可能重复,为确保每个Warp中的每个Lane处理唯一的顶点,需要去重并返回当前Lane需要处理的唯一顶点索引,通过DeduplicateVertIndexes函数实现。同时返回当前Lane对应的三角形顶点索引,用于三角形设置和光栅化步骤。
获得唯一顶点索引后,进行三角形设置。这里代码与之前基本一致,只是写成模板函数,将Sub Pixel放大倍数SubpixelSamples和是否背面剔除bBackFaceCull作为模板参数,通过使用HLSL 语法实现。
最后是光栅化三角形写入像素。在Virtual Shadow Map等支持Nanite的场景下,定义模板结构TNaniteWritePixel来实现不同应用环境下Nanite光栅化Pipeline的细微差异。
在ENABLE_EARLY_Z_TEST宏定义时,调用EarlyDepthTest函数提前剔除像素,减少后续重心坐标计算开销。当启用NANITE_PIXEL_PROGRAMMABLE宏时,可以使用此机制提前剔除像素。
最后重点解析前面提到的DeduplicateVertIndexes函数。
DeduplicateVertIndexes函数给每个Lane返回唯一的顶点索引,同时给当前Lane分配三角形顶点索引以及去重后的pdfium 源码顶点数量。
首先通过DecodeTriangleIndices获取Cluster Local的三角形顶点索引,启用Cluster约束时获取所有Lane中最小的顶点索引,即顶点基索引。将当前三角形顶点索引(Cluster Local)减去顶点基索引,得到相对顶点基索引的局部顶点索引。
接下来生成顶点标志位集合。遍历三角形三个顶点,将局部顶点索引按顺序设置到对应位,表示哪些顶点已被使用。每个标志位是顶点的索引,并在已使用的顶点位置处设置为1。使用uint2数据类型,最多表示个顶点位。
考虑Cluster最多有个顶点,为何使用位uint2来保存Vertex Mask而非位?这是由于Nanite在Build时启用了约束机制(宏NANITE_USE_CONSTRAINED_CLUSTERS),该机制保证了Cluster中的三角形顶点索引与当前最大值之差必然小于(宏CONSTRAINED_CLUSTER_CACHE_SIZE),因此,生成的Triangle Batch第一个索引与当前最大值之差将不小于,并且每个Batch最多有个唯一顶点,顶点索引差的最大值为,仅需2个位数据即可。约束机制确保使用更少数据和计算。
将所有Lane所标记三个顶点的Vertex Mask进行位合并,得到当前Wave所有顶点位掩码。通过FindNthSetBit函数找出当前Lane对应的Mask索引,加上顶点基索引得到当前Lane对应的Cluster Local顶点索引。
接下来获取当前Lane对应的三角形的Wave Local的三个顶点索引,用于后续通过Wave指令访问其他Lane中已经计算完成的顶点属性。通过MaskedBitCount函数根据Vertex Mask以及前面局部顶点索引通过前缀求和得到当前Lane对应的Vertex Wave Local Index。
最后统计Vertex Mask所有位,返回总计有效的顶点数量。
注意FindNthSetBit函数,实现Lane与顶点局部索引(减去顶点基索引)的映射,返回当前Lane对应的Vertex Mask中被设置为1的位索引。如果某位为0,则返回下一个位为1的索引。如果Mask中全部位都设置为1,则实际返回为Lane索引。通过二分法逐渐缩小寻找索引范围,不断更新所在位置,最后返回找到的位置索引。
最后,出于验证目的进行了Vertex Reuse Batch的性能测试。在材质包含WPO、PDO或Mask时关闭Vertex Reuse Batch功能,与开启功能做对比。测试场景为由每颗万个三角形的树木组成的森林,使用Nsight Graphics进行Profiling,得到GPU统计数据如下:
启用Vertex Reuse Batch后,软光栅总计耗时减少了1.毫秒。SM Warp总占用率有一定提升。SM内部工作量分布更加均匀,SM Launch的总Warp数量提升了一倍。长短板Stall略有增加,但由于完全消除了由于LDS同步导致的Barrier Stall,总体性能还是有很大幅度的提升。
至此,Nanite可编程光栅化源码解析讲解完毕。回顾整个解析过程,可以发现UE5团队并未使用什么高深的黑科技,而是依靠引擎开发者强悍的工程实现能力完成的,尤其是在充分利用GPU SIMT/SIMD机制榨干机能的同时,保证了功能与极限性能的实现。这种能力和精神,都很值得我们学习。
源码为医院产科量身定制的信息管理系统:数字化产科管理平台
定制化数字化产科管理系统详解
这款专为医院产科设计的信息管理系统,是智能化产科管理的创新解决方案。它由门诊系统、住院系统和数据统计模块组成,旨在优化从怀孕到生产的全程服务。系统与HIS、LIS、PACS和RIS等医院系统无缝对接,自动整合和分析数据,包括孕妇的挂号、一卡通信息、身份证信息,以及早期B超结果等。 开发环境采用前后端分离技术,主要使用Java开发,前端框架选用Vue和ElementUI,数据库则为MySQL8.0.。系统功能强大,如孕妇建档,通过微信便捷自助完成,包括首检信息的录入和自动提取检验报告。检验报告、超声检查、胎监报告和营养分析等都实现了自动化处理。 此外,平台设有高危五色管理,智能AI医生支持各类孕妇的产检分析,筛查时间轴和专病管理功能也使得孕期管理更为精细化。接生登记、出生医学证明等重要环节,系统都能自动完成,大大减轻了医护人员的工作负担。同时,系统还提供了智能提醒服务,如高危及产后随访,异常情况自动报警,以及孕妇体征的自助测量。 系统的特点在于信息互联互通,数据共享,实现无纸化办公,降低临床文本工作量。智能化管理不仅提升风险管控效率,还建立了医患沟通的新方式,通过微信功能实现个性化服务和预警机制。这样的数字化平台,将大大提高医院产科的服务质量和效率。期货软件TB系统源代码解读系列-R-Breaker系统
R-Breaker系统是一种基于昨日价格的交易参考工具,它简化了Pivot Points,仅去除了一个枢轴点,交易策略基础是突破上界做多,下界做空。若做多后回撤至次上界,认为是假突破,应反手操作。以下是系统的核心代码和部分解释:参数设置:如notbef(9.)代表时间需大于0.,Notaft(.)表示时间需小于0.,其余参数如f1、f2、f3、reverse、rangemin和xdiv等用于计算关键价位。
变量声明:包括数值序列变量如ssetup、bsetup等,用于存储计算结果,以及布尔型变量rfilter,用于过滤操作。
代码执行逻辑:根据日期变化,计算当日开盘价的倍数作为参考区间。在特定时间范围内,如9点到2点分,根据市场波动判断是否突破区间进行买卖操作,同时考虑持仓状态和个人设置的条件。
警告:作者并未实际在实盘或超级图表上测试过此系统,认为在使用前需要根据个人市场分析和策略调整优化。
总的来说,R-Breaker系统是一个动态计算买卖点的工具,需要交易者根据市场状况灵活运用,并可能需要结合其他指标或个人判断进行调整。经常逛的行业相关论坛/网站有哪些?
以下是一些常见的行业相关论坛/:1. Zhihu(知乎):国内知名的问答社区,在技术、金融、医疗、教育等多个领域均有热门讨论。2. Geekhack:键盘爱好者的聚集地,讨论机械键盘、DIY键盘等话题。3. Reddit:全球知名的论坛社区,拥有各种话题的subreddit频道,涵盖了数十个行业领域,例如r/Entrepreneur、r/programming、r/fashion等。4. Hacker News:由美国风险投资公司Y Combinator创立的科技新闻社区,聚焦于创业、计算机科学、等领域。5. Stack Overflow:专业的编程问答社区,开发者可以在这里分享知识,解决技术难题。6. CSDN:国内最大的IT技术社区,涵盖了计算机、通信、数据、物联网等领域。7. 虎嗅网:国内领先的创新创业门户,为创业者提供最新的报道和分析。8. ThoughtWorks洞见:由ThoughtWorks公司创立的技术博客,涵盖了各种技术趋势和新闻。9. 博客园:中国技术博客领袖,提供了技术、管理、产品等领域的博客文章和社区交流。. 氪:关注创业及科技公司的新闻与资讯,提供国内外最新科技、创业和投资信息。
c++学习论坛推荐 强力推荐之美
探索C++学习之路的宝藏论坛和资源 对于C++编程初学者和进阶者,这里有众多优秀的论坛和网站能助你深入理解和掌握这门强大的语言。首先,不妨从编程入门网(1)开始,这里有详细的教程和实践指导。C++奋斗乐园(2)则是一个充满活力的社区,你可以找到许多实战问题的讨论和解决方案。此外,像C++博客、cto语言开发、csdn技术论坛和博客园这样的专业平台,提供了丰富的技术分享和资源。 对于源代码收藏者,这里有个不容错过的网站:Snippets.dzone.com、Hotscripts、PlanetSourceCode、Freshmeat.net等,它们存储着从几千行到数万行的免费C/C++源代码。Google CodeSearch()是搜索C源代码的神器,能帮助你快速定位所需的代码片段。CodePedia()和CodeProject()则提供了丰富的编程库和实践项目。 特别关注游戏开发的朋友,这里有专门的C++游戏相关源代码资源,如(1),以及一些免费的C/C++数值计算()和实用工具(, ),它们在游戏引擎的构建中扮演着重要角色。布拉德阿普顿的C++链接()和C/C++链接列表()则是你扩展技术视野的宝贵资源。 对于学习C++标准库的读者,C++标准库例子()和C++用户杂志(, )提供了丰富的实践案例。你还可以找到大量的C程序()和实用代码段(),以及C++编程资源(, ),如C++项目()和代码库(),它们是提升编程技能的基石。 不止于此,多种技术资源()涵盖了C++的方方面面,从Borland C游戏示例()到C++数学方程代码(),满足了不同领域的开发者需求。而C++标准库教程(, )和Edward M. Reingold的代码()则是深入理解C++核心的不二之选。C++源代码档案()和科学问题解决方法()为科研人员提供了宝贵的参考,C/C++ IT工具()则为日常工作提供了实用工具。 最后,不要忘了C++示例程序(),它们是理解和实践C++语法的绝佳途径。无论你是初学者还是经验丰富的开发者,这些论坛和资源都能为你的C++学习之旅增添无数可能。