1.LBP特征和LPQ特征
2.关于静态纹理(UTexture2D)的纹理纹理遍历与读写
3.游戏引擎随笔 0x36:UE5.x Nanite 源码解析之可编程光栅化(下)
4.用Python和OpenGL探索数据可视化(基础篇)- 你好,纹理!检索检索
5.10分钟!源码源码用Python实现简单的纹理纹理人脸识别技术(附源码)
6.纹理特征提取方法:LBP, 灰度共生矩阵
LBP特征和LPQ特征
探索LBP特征与LPQ特征:深度纹理信息的捕捉与应用 在计算机视觉领域,纹理信息的检索检索捕捉是关键一步,其中两种常用的源码源码云云源码站特征描述方法——LBP(Local Binary Pattern)和LPQ(Local Phase Quantization)各具特色。让我们首先深入了解LBP的纹理纹理原始概念。 1. 原始LBP特征的检索检索基石 LBP算子以3x3的邻域为中心,通过比较像素值与中心像素值的源码源码关系,生成二进制编码。纹理纹理每个像素周围的检索检索8个像素点,若其灰度值大于中心,源码源码对应位置标记为1,纹理纹理否则为0。检索检索这样,源码源码每个像素点产生一个8位二进制数,总计种可能的LBP值,每一种都独特地反映了周围像素的纹理结构。重要的是,处理图像时必须保证是灰度图,彩色图需先转为灰度。 2. LBP的匹配与实用价值 LBP特征在目标检测中崭露头角。以人脸检测为例,虽然Haar+Adaboost是常见方法,但LBP+Adaboost因其更快的训练速度和更好的检测性能备受青睐。在OpenCV的TrainCascade中,LBP特征通常采用DLBP(可能的改进版本)作为输入,提供更为精确的纹理特征。然而,具体实现细节需要查阅源码,如MB-LBP就是一种常见的LBP变体。 对于OpenCV级联检测的深度理解,可以参考外文资料,但在此之前,尝试过训练分类器并应用LBP特征是不可或缺的预备知识。链接中的LIBSVM库提供了支持向量机的实现,为深度学习和纹理特征分析提供了强大支持。 转向LPQ特征:超越LBP的纹理捕捉 相比之下,LPQ特征更侧重于捕捉局部图像的相位信息,它通过量化局部相位梯度来描述纹理,这使得它在某些情况下优于LBP,尤其在处理复杂纹理和旋转不变性方面。LPQ特征在人脸识别和纹理分类中展示了其优势,但其计算复杂度相对较高,适合对精度有更高要求的应用场景。 综上所述,LBP和LPQ特征都是纹理特征提取的重要手段,各有优劣,选择哪种方法取决于具体的aoi 算法源码分析应用需求和性能要求。通过深入理解和实践,我们可以更好地利用这些特征在计算机视觉任务中实现精准的图像分析。关于静态纹理(UTexture2D)的遍历与读写
关于静态纹理(UTexture2D)的遍历与读写
静态纹理在Unity(UE)中,尤其是Texture2D类型,其在蓝图中的操作相对有限,没有直接的读写节点,除非通过C++实现。对于RenderTexture(UE中的RenderTarget)则提供了读取像素的节点,但这些方法可能不适合实时调用,涉及GPU和CPU的数据传输。 在C++层面,Unity引擎API设计较为底层,需要配合多个方法来实现一些功能,这可能增加了理解和使用难度,但同时也提供了更大的优化空间。遇到问题,查阅源码、社区或科学上网搜索是常用解决途径。 关于读写纹理,主要分为以下步骤:创建纹理,可以使用CreateTransient,它会初始化一些平台数据和Mip等信息。
获取纹理数据结构,如FTexturePlatformData,包括尺寸、颜色类型和Mip级别。
选择特定Mip级别,比如原始分辨率或Mipmap缩放版本。
获取对应Mip级别的数据集,即FByteBulkData。
使用Lock方法锁定图像并获得头指针,注意区分读写锁。
根据像素位置进行地址偏移,利用像素颜色格式计算正确的内存地址。
解锁Tex,确保操作完成后释放资源。
动态修改MipGenSettings,如从外部导入的图可能需要调整设置以确保有效指针。
在实践中,可以封装一个读取像素的方法,写入则需要相应地修改Lock关键字和偏移计算。而在Unity中,遍历纹理的顺序、原点位置以及API选择与UE有所不同。游戏引擎随笔 0x:UE5.x Nanite 源码解析之可编程光栅化(下)
书接上回。
在展开正题之前,先做必要的铺垫,解释纳尼特(Nanite)技术方案中的查看网页源码平台Vertex Reuse Batch。纳尼特在软光栅路径实现机制中,将每个Cluster对应一组线程执行软光栅,每ThreadGroup有个线程。在光栅化三角形时访问三角形顶点数据,但顶点索引范围可能覆盖整个Cluster的个顶点,因此需要在光栅化前完成Cluster顶点变换。纳尼特将变换后的顶点存储于Local Shared Memory(LDS)中,进行组内线程同步,确保所有顶点变换完成,光栅化计算时直接访问LDS,实现软光栅高性能。
然而,在使用PDO(Masked)等像素可编程光栅化时,纳尼特遇到了性能问题。启用PDO或Mask时,可能需要读取Texture,根据读取的Texel决定像素光栅化深度或是否被Discard。读取纹理需计算uv坐标,而uv又需同时计算重心坐标,增加指令数量,降低寄存器使用效率,影响Active Warps数量,降低延迟隐藏能力,导致整体性能下降。复杂材质指令进一步加剧问题。
此外,当Cluster包含多种材质时,同一Cluster中的三角形被重复光栅化多次,尤其是材质仅覆盖少数三角形时,大量线程闲置,浪费GPU计算资源。
为解决这些问题,纳尼特引入基于GPU SIMT/SIMD的Vertex Reuse Batch技术。技术思路如下:将每个Material对应的三角形再次分为每个为一组的Batch,每Batch对应一组线程,每个ThreadGroup有个线程,正好对应一个GPU Warp。利用Wave指令共享所有线程中的变换后的顶点数据,无需LDS,减少寄存器数量,增加Warp占用率,提升整体性能。
Vertex Reuse Batch技术的启用条件由Shader中的NANITE_VERT_REUSE_BATCH宏控制。
预处理阶段,纳尼特在离线时构建Vertex Reuse Batch,核心逻辑在NaniteEncode.cpp中的BuildVertReuseBatches函数。通过遍历Material Range,统计唯一顶点数和三角形数,传奇源码分析 objbase达到顶点去重和优化性能的目标。
最终,数据被写入FPackedCluster,根据材质数量选择直接或通过ClusterPageData存储Batch信息。Batch数据的Pack策略确保数据对齐和高效存储。
理解Vertex Reuse Batch后,再来回顾Rasterizer Binning的数据:RasterizerBinData和RasterizerBinHeaders。在启用Vertex Reuse Batch时,这两者包含的是Batch相关数据,Visible Index实际指的是Batch Index,而Triangle Range则对应Batch的三角形数量。
当Cluster不超过3个材质时,直接从FPackedCluster中的VertReuseBatchInfo成员读取每个材质对应的BatchCount。有了BatchCount,即可遍历所有Batch获取对应的三角形数量。在Binning阶段的ExportRasterizerBin函数中,根据启用Vertex Reuse Batch的条件调整BatchCount,表示一个Cluster对应一个Batch。
接下来,遍历所有Batch并将其对应的Cluster Index、Triangle Range依次写入到RasterizerBinData Buffer中。启用Vertex Reuse Batch时,通过DecodeVertReuseBatchInfo函数获取Batch对应的三角形数量。对于不超过3个材质的Cluster,DecodeVertReuseBatchInfo直接从Cluster的VertReuseBatchInfo中Unpack出Batch数据,否则从ClusterPageData中根据Batch Offset读取数据。
在Binning阶段的AllocateRasterizerBinCluster中,还会填充Indirect Argument Buffer,将当前Cluster的Batch Count累加,用于硬件光栅化Indirect Draw的Instance参数以及软件光栅化Indirect Dispatch的ThreadGroup参数。这标志着接下来的光栅化Pass中,每个Instance和ThreadGroup对应一个Batch,以Batch为光栅化基本单位。
终于来到了正题:光栅化。本文主要解析启用Vertex Reuse Batch时的软光栅源码,硬件光栅化与之差异不大,此处略过。此外,本文重点解析启用Vertex Reuse Batch时的光栅化源码,对于未启用部分,除可编程光栅化外,与原有固定光栅化版本差异不大,不再详细解释。
CPU端针对硬/软光栅路径的Pass,分别遍历所有Raster Bin进行Indirect Draw/Dispatch。由于Binning阶段GPU中已准备好Draw/Dispatch参数,因此在Indirect Draw/Dispatch时只需设置每个Raster Bin对应的Argument Offset即可。
由于可编程光栅化与材质耦合,积分函数公式源码导致每个Raster Bin对应的Shader不同,因此每个Raster Bin都需要设置各自的PSO。对于不使用可编程光栅化的Nanite Cluster,即固定光栅化,为不降低原有性能,在Shader中通过两个宏隔绝可编程和固定光栅化的执行路径。
此外,Shader中还包括NANITE_VERT_REUSE_BATCH宏,实现软/硬光栅路径、Compute Pipeline、Graphics Pipeline、Mesh Shader、Primitive Shader与材质结合生成对应的Permutation。这部分代码冗长繁琐,不再详细列出讲解,建议自行阅读源码。
GPU端软光栅入口函数依旧是MicropolyRasterize,线程组数量则根据是否启用Vertex Reuse Batch决定。
首先判断是否使用Rasterizer Binning渲染标记,启用时根据VisibleIndex从Binning阶段生成的RasterizerBinHeaders和RasterizerBinData Buffer中获取对应的Cluster Index和光栅化三角形的起始范围。当启用Vertex Reuse Batch,这个范围是Batch而非Cluster对应的范围。
在软光栅中,每线程计算任务分为三步。第一步利用Wave指令共享所有线程中的Vertex Attribute,线程数设置为Warp的Size,目前为,每个Lane变换一个顶点,最多变换个顶点。由于三角形往往共用顶点,直接根据LaneID访问顶点可能重复,为确保每个Warp中的每个Lane处理唯一的顶点,需要去重并返回当前Lane需要处理的唯一顶点索引,通过DeduplicateVertIndexes函数实现。同时返回当前Lane对应的三角形顶点索引,用于三角形设置和光栅化步骤。
获得唯一顶点索引后,进行三角形设置。这里代码与之前基本一致,只是写成模板函数,将Sub Pixel放大倍数SubpixelSamples和是否背面剔除bBackFaceCull作为模板参数,通过使用HLSL 语法实现。
最后是光栅化三角形写入像素。在Virtual Shadow Map等支持Nanite的场景下,定义模板结构TNaniteWritePixel来实现不同应用环境下Nanite光栅化Pipeline的细微差异。
在ENABLE_EARLY_Z_TEST宏定义时,调用EarlyDepthTest函数提前剔除像素,减少后续重心坐标计算开销。当启用NANITE_PIXEL_PROGRAMMABLE宏时,可以使用此机制提前剔除像素。
最后重点解析前面提到的DeduplicateVertIndexes函数。
DeduplicateVertIndexes函数给每个Lane返回唯一的顶点索引,同时给当前Lane分配三角形顶点索引以及去重后的顶点数量。
首先通过DecodeTriangleIndices获取Cluster Local的三角形顶点索引,启用Cluster约束时获取所有Lane中最小的顶点索引,即顶点基索引。将当前三角形顶点索引(Cluster Local)减去顶点基索引,得到相对顶点基索引的局部顶点索引。
接下来生成顶点标志位集合。遍历三角形三个顶点,将局部顶点索引按顺序设置到对应位,表示哪些顶点已被使用。每个标志位是顶点的索引,并在已使用的顶点位置处设置为1。使用uint2数据类型,最多表示个顶点位。
考虑Cluster最多有个顶点,为何使用位uint2来保存Vertex Mask而非位?这是由于Nanite在Build时启用了约束机制(宏NANITE_USE_CONSTRAINED_CLUSTERS),该机制保证了Cluster中的三角形顶点索引与当前最大值之差必然小于(宏CONSTRAINED_CLUSTER_CACHE_SIZE),因此,生成的Triangle Batch第一个索引与当前最大值之差将不小于,并且每个Batch最多有个唯一顶点,顶点索引差的最大值为,仅需2个位数据即可。约束机制确保使用更少数据和计算。
将所有Lane所标记三个顶点的Vertex Mask进行位合并,得到当前Wave所有顶点位掩码。通过FindNthSetBit函数找出当前Lane对应的Mask索引,加上顶点基索引得到当前Lane对应的Cluster Local顶点索引。
接下来获取当前Lane对应的三角形的Wave Local的三个顶点索引,用于后续通过Wave指令访问其他Lane中已经计算完成的顶点属性。通过MaskedBitCount函数根据Vertex Mask以及前面局部顶点索引通过前缀求和得到当前Lane对应的Vertex Wave Local Index。
最后统计Vertex Mask所有位,返回总计有效的顶点数量。
注意FindNthSetBit函数,实现Lane与顶点局部索引(减去顶点基索引)的映射,返回当前Lane对应的Vertex Mask中被设置为1的位索引。如果某位为0,则返回下一个位为1的索引。如果Mask中全部位都设置为1,则实际返回为Lane索引。通过二分法逐渐缩小寻找索引范围,不断更新所在位置,最后返回找到的位置索引。
最后,出于验证目的进行了Vertex Reuse Batch的性能测试。在材质包含WPO、PDO或Mask时关闭Vertex Reuse Batch功能,与开启功能做对比。测试场景为由每颗万个三角形的树木组成的森林,使用Nsight Graphics进行Profiling,得到GPU统计数据如下:
启用Vertex Reuse Batch后,软光栅总计耗时减少了1.毫秒。SM Warp总占用率有一定提升。SM内部工作量分布更加均匀,SM Launch的总Warp数量提升了一倍。长短板Stall略有增加,但由于完全消除了由于LDS同步导致的Barrier Stall,总体性能还是有很大幅度的提升。
至此,Nanite可编程光栅化源码解析讲解完毕。回顾整个解析过程,可以发现UE5团队并未使用什么高深的黑科技,而是依靠引擎开发者强悍的工程实现能力完成的,尤其是在充分利用GPU SIMT/SIMD机制榨干机能的同时,保证了功能与极限性能的实现。这种能力和精神,都很值得我们学习。
用Python和OpenGL探索数据可视化(基础篇)- 你好,纹理!
本系列文章旨在教授如何运用Python和OpenGL 4.5进行数据可视化开发,前提读者电脑需支持OpenGL 4.5版本。请参考《准备工作(一)Windows下检测显卡和OpenGL信息》进行检测,以及《准备工作(二)配置Windows下VS Code + Python + OpenGL开发环境》进行环境配置。源代码已上传至gitee.com/eagletang/pyg...
在探索数据可视化的旅程中,我们已经学会了如何通过顶点属性和统一变量赋予矩形不同的颜色。然而,现实世界中许多物体拥有复杂多变的颜色,如何在OpenGL中处理这些问题?答案在于纹理(Texture)的使用。纹理通过捕捉并转为数字化图像,再将图像“贴”在物体的三角形上,实现丰富色彩的显示。这一过程称为纹理贴图(Texture mapping)。
纹理贴图的基础元素是纹素(Texture element,简称texel)。接下来,我们通过代码实践来感受纹理贴图的魅力。首先,在VS Code中打开D:\pydev\pygl下的basic文件夹,并新建texture_app.py文件。在shaders文件夹下分别新建texture.vs、texture.fs文件,并输入相应的代码。在pygl文件夹下新建textures文件夹,下载木箱并将其复制至其中。运行VS Code,点击右上角三角形图标运行代码,屏幕将显示一个蓝色矩形,可切换至线框、实体加线框或纹理模式。切换至纹理模式,矩形将贴上木箱图案。
在GLSL部分,我们引入了纹理坐标tex_coord,并在顶点着色器中使用它。片段着色器中则引入了采样器sampler2D rect_texture,使用GLSL内置的函数texture从纹理中采集颜色信息。Python + OpenGL部分中,通过PIL库读取,定义纹理坐标、顶点属性、索引列表等,创建OpenGL程序对象、顶点缓存对象、元素缓存对象等,并与纹理对象绑定。通过代码实现,我们成功将纹理贴在了矩形上。
本文通过代码实践和解释,详细介绍了如何使用Python和OpenGL进行纹理贴图,使矩形能够展示出纹理的丰富色彩。通过本系列文章的学习,您将逐步掌握数据可视化开发的技能,探索更多可能。
分钟!用Python实现简单的人脸识别技术(附源码)
Python实现简单的人脸识别技术,主要依赖于Python语言的胶水特性,通过调用特定的库包即可实现。这里介绍的是一种较为准确的实现方法。实现步骤包括准备分类器、引入相关包、创建模型、以及最后的人脸识别过程。首先,需确保正确区分人脸的分类器可用,可以使用预训练的模型以提高准确度。所用的包主要包括:CV2(OpenCV)用于图像识别与摄像头调用,os用于文件操作,numpy进行数学运算,PIL用于图像处理。
为了实现人脸识别,需要执行代码以加载并使用分类器。执行“face_detector = cv2.CascadeClassifier(r'C:\Users\admin\Desktop\python\data\haarcascade_frontalface_default.xml')”时,确保目录名中无中文字符,以免引发错误。这样,程序就可以识别出目标对象。
然后,选择合适的算法建立模型。本次使用的是OpenCV内置的FaceRecognizer类,包含三种人脸识别算法:eigenface、fisherface和LBPHFaceRecognizer。LBPH是一种纹理特征提取方式,可以反映出图像局部的纹理信息。
创建一个Python文件(如trainner.py),用于编写数据集生成脚本,并在同目录下创建一个文件夹(如trainner)存放训练后的识别器。这一步让计算机识别出独特的人脸。
接下来是识别阶段。通过检测、校验和输出实现识别过程,将此整合到一个统一的文件中。现在,程序可以识别并确认目标对象。
通过其他组合,如集成检测与开机检测等功能,可以进一步扩展应用范围。实现这一过程后,你将掌握Python简单人脸识别技术。
若遇到问题,首先确保使用Python 2.7版本,并通过pip安装numpy和对应版本的opencv。针对特定错误(如“module 'object' has no attribute 'face'”),使用pip install opencv-contrib-python解决。如有疑问或遇到其他问题,请随时联系博主获取帮助。
纹理特征提取方法:LBP, 灰度共生矩阵
纹理特征提取是计算机视觉领域的重要研究内容。本文将详细介绍两种常见的纹理特征提取方法:局部二值模式(LBP)和灰度共生矩阵(GLCM)。
1. 局部二值模式(LBP)
LBP是一种用于描述图像局部纹理特征的算子。它的核心思想是以某个像素点为中心,与其邻域像素点共同计算。具体来说,邻域像素点的选择方法并不唯一,本文选择环形邻域进行说明。窗口中心的像素点作为中心,该像素点的像素值作为阈值。然后将周围8个像素点的灰度值与该阈值进行比较,若周围某像素值大于中心像素值,则该像素点位置被标记为1;反之,该像素点标记为0。如此这样,该窗口的8个点可以产生8位的无符号数,这样就得到了该窗口的LBP值,该值反应了该窗口的纹理信息。
2. 灰度共生矩阵(GLCM)
灰度共生矩阵是通过计算灰度图像得到它的共生矩阵,然后透过计算该共生矩阵得到矩阵的部分特征值,来分别代表图像的某些纹理特征。灰度共生矩阵能反映图像灰度关于方向、相邻间隔、变化幅度等综合信息,它是分析图像的局部模式和它们排列规则的基础。
计算纹理特征的第一步,就是将多通道的图像(一般指RGB图像)转换为灰度图像,分别提取出多个通道的灰度图像。一般在一幅图像中的灰度级有级,从0--。但在计算灰度共生矩阵时我们并不需要个灰度级,且计算量实在太大,所以一般分为8个灰度级或个灰度级。
灰度共生矩阵有多个方向,如0°、°、°、°等。以左上角元素为坐标原点,原点记为(1, 1);以此为基础举例,第四行第二列的点记为(4, 2)。根据方向不同,统计矩阵值的方式也不同。
计算得到单个窗口的灰度共生矩阵的各个方向的矩阵后,就要用这些矩阵计算灰度共生矩阵特征值。一般采用四个最常用的特征来提取图像的纹理特征:能量、对比度、相关度、熵。这些特征值可以反映图像纹理的均匀程度、清晰度、局部灰度相关性以及随机性等信息。
最后,将整个图像的纹理特征值组合成一个纹理特征值矩阵,进而转换成纹理特征图像。本文已对源码进行测试封装,并上传到了笔者的GitHub网站上。感兴趣的读者可以访问以下链接查看具体实现:/upcAutoLang/GLCM-OpenCV