1.PolarDB-X 源码解读(七):私有协议连接的码分一生(CN篇)
2.mongodb内核源码实现、性能调优、码分最佳运维实践系列-表级qps及表级详细时延统计实现原理
3.盘点 35 个 Apache 顶级项目,码分我拜服了…
4.BoltDB 事务流程
PolarDB-X 源码解读(七):私有协议连接的码分一生(CN篇)
通过前文的介绍,大家基本了解了一条SQL在polardbx-sql中的码分解析和执行流程。由于polardbx-sql是码分bc源码编译无状态的计算节点,真正数据需要从存储节点传输到计算节点,码分这部分工作由私有协议完成。码分本文将详细介绍从发送请求到存储节点,码分接收返回数据的码分完整流程,重点在于私有协议连接的码分生命周期和关键代码解析。
概述
为了提高数据节点本地计算能力,码分同时减少网络数据传输量,码分计算节点会尽可能下推计算内容。码分一个逻辑表可能需要多个物理分片,码分因此计算节点与存储节点的请求会话数量会随着分片数增加而增加。传统MySQL协议+连接池架构已不能满足PolarDB-X的需求,因此私有协议在这一需求场景下应运而生。
如图所示,私有协议采用连接与会话分离的RPC协议设计理念,支持多个会话在同一个TCP通道中并行运行,具备流控机制、全双工响应式工作模式和高吞吐、可扩展等特性。
更多关于私有协议解决上述问题的设计详情,可以参考《PolarDB-X私有协议设计》一文。本文主要从代码层面详细描述私有协议的工作流程。
我们将从计算节点和存储节点两个角度完整解析私有协议连接的生命周期。篇幅限制,本文仅关注计算节点上私有协议的处理,存储节点部分将在后续文章中详细说明。
计算节点
计算节点作为私有协议的客户端,负责发送下推请求,并接收返回的数据。
网络层框架
PolarDB-X私有协议网络层采用定制化Reactor框架实现,基于Java的NIO,改进自polardbx-sql中的Reactor框架。网络层初始化时,设置CPU核心数的2倍(上限为)作为NIOProcessor,每个Reactor使用独立的堆外内存池作为收发包缓冲,总缓冲内存大小限制为堆内存大小的%。
NIO接收的包直接调用注册的处理函数,发送数据仅写入send buf,网络写入由单独线程完成。线程优先写入TCP send buf,当无法写入时,注册OP_WRITE事件等待可写后再写入剩余内容。
数据包的编码和解码在NIOClient中实现。为实现最佳性能,解包流程直接在堆外内存上进行,使用protobuf对流直接解析,将结果放入堆内。堆外内存被切分为KB chunk,每个Reactor独占一个chunk,连续解析和复用,最大化接收、解析效率。对于特大包,额外构造堆内大buffer接收和解析,回退标志在定时任务中重置,连续s无超大包时释放堆内内存,小程序象棋源码恢复高性能堆外KB buffer接收。
请求发送集成在NIOClient中,writer优先尝试写入发送缓冲队列尾部的buffer,不足时新申请buffer填充并追加到队尾。buffer来自预分配的堆外缓冲池,超过chunk大小时分配堆内buf进行序列化。
同时,NIOClient负责TCP连接的建立和断开资源释放,作为独立的底层网络资源管理实现。
连接及会话
网络层之后,我们聚焦连接与会话分离的具体实现。通过剥离连接及收发包的具体实现,连接和会话的管理变得更加清晰简洁。
首先,一个TCP连接的逻辑抽象结构在XClient中实现,为避免误解,取名为client与JDBC中的Connection区别。该类管理TCP连接和并行运行的会话,负责TCP完整生命周期的管理、认证鉴权,并维护公共信息。其中,workingSessionMap记录了连接上并行运行的所有会话映射关系,可快速通过会话ID找到对应的会话抽象结构XSession。
XSession提供了所有会话相关的请求函数和信息存储,包括执行计划请求、SQL查询请求、SQL更新请求、TSO请求、会话变量处理、数据包处理及异步唤醒等。
连接池及全局单例管理器
为了提高性能,TCP连接和会话的复用必不可少。由于连接和会话的解绑,连接池不仅缓存了到计算节点的TCP连接,也缓存了到计算节点的会话。
XClientPool管理到一个存储节点的连接池,通过IP,端口,用户名三元组唯一确定目标存储节点,同时存储该节点的全部TCP连接(XClient)和建立的会话(XSession)。
XClientPool实现存储节点会话获取,对应JDBC接口中的getConnection,同时实现连接和会话生命周期管理、连接探活、会话预分配等功能。实现单个存储节点连接池后,XConnectionManager维护目标存储节点三元组到实例连接池的映射,管理定时任务线程池,实现定时探活、会话&连接最长生命控制以及连接池预热等功能。
JDBC兼容层
新的SQL协议层对上层使用者要求较高,为了提高开发效率,私有协议提供兼容JDBC的使用方法,实现从JDBC平滑切换至私有协议,并支持协议热切换。
JDBC兼容层代码目录在compatible目录下,Connection继承在XConnection文件中。提供包括DataSource、Connection、布谷直播源码下载Statement、PreparedStatement、ResultSet、ResultSetMetaData在内的大部分常用接口函数实现,不支持的函数会明确抛出异常避免误用。
整体关系
至此,私有协议计算节点端的大部分结构已说明完成。给出一个整体的关系图。
私有协议连接的一生(CN视角)
了解了私有协议各层实现后,我们以发到存储节点的请求为例,完整梳理执行流程。绕开计算节点复杂流程,直接运行代码示例(注:需将com.alibaba.polardbx.rpc.XConfig#GALAXY_X_PROTOCOL设置为true)。
直接运行playground看到预期的select 1的结果。接下来,我们深入跟踪说明。
数据源初始化
要使用私有协议,需要初始化对应存储节点的XDataSource。构造过程中,XDataSource会到XConnectionManager注册新的实例连接池,已存在的连接池引用计数加一。
获取Connection
当需要执行查询时,首先获取会话。无论是显式开启事务还是使用auto commit事务,会话都是执行请求的最小上下文。通过XDataSource的getConnection方法获取到对应存储节点的会话。XDataSource根据存储的IP,端口,用户名三元组查找到XConnectionManager中的连接池,在最高并发检查后,会话获取逻辑在XClientPool实现。首先尝试在空闲会话池中拿会话,通过重置检查和初始化后返回给调用者。大部分场景下,ConcurrentLinkedQueue提供较好的并发性能。
在代码场景下,数据源刚新建,后台定时任务未运行,流程进入连接创建流程。会有一把大锁锁住连接池,在TCP连接未达上限且没有超时的情况下,快速新建一个XClient占坑。若超限,则进入busy waiting循环。真正的TCP connect(waitChannel)在锁外被调用,首先client以阻塞模式带超时方式connect,然后切换为非阻塞模式,round robin策略注册到NIOProcesser上,返回时,TCP连接已建立。
为了兼顾安全和性能,连接鉴权在TCP建连后只用做一次,会话创建不需要鉴权。鉴权在initClient中完成,发送SESS_AUTHENTICATE_START_VALUE包,后续校验由回调完成。认证采用标准的MySQL认证流程,server端返回challenge值,库名、用户名和加盐hash后的哪个网校源码好密码返回给MySQL即可完成认证。
至此,到存储节点的TCP连接已建立,创建会话是一个异步流程。在创建新XClient时,XConnection已new好,通过下断点跟进去可看到newXSession流程,分配session id,设置状态为init,将XSession绑定到XConnection上。
最后,XConnection经过初始化(重置auto commit状态)、重置默认DB、默认字符集(lazy操作)和统计信息记录,返回给用户使用。
发送查询请求
拿到初始化好的兼容JDBC的Connection,为了简化流程,直接调用XConnection中的execQuery。XConnection的execQuery包装了XSession的execQuery,执行前执行了设置流式模式。
首先记录调用信息进行统计,进入关键的initForRequest流程。XSession初始化流程lazy,仅分配session id,设置状态为Init,真正创建session时发送SESS_NEW给server,绑定新session和session id。如果session已复用,则状态为Ready。
执行字符集更改的lazy操作,session可能在其他请求中切换字符集,根据目标字符集和当前字符集对比,决定是否发送额外的字符集更改请求。
经过一系列变量设置、lazy DB设置和protobuf包构造,请求发送到存储节点执行。发送后,同步生成XResult负责结果解析,同时XResult按照请求顺序依次拉链表,确保结果与请求一一对应。
请求流水线结构如下图所示,处理完成前序请求后,才能解析后续结果。
接收结果集
请求已发送到存储节点执行,拿到XResult,通过XResult收集查询结果集。XResult与发送请求一一对应,存储节点处理也是在会话上排队进行,不会影响流水线上其他请求的返回,保证流水线正常工作。
首先,查看结果集处理的状态机,主要状态包括获取元数据、获取数据行、获取额外信息等,顺序固定,根据请求类型,部分环节可能被省略。报错处理贯穿整个状态机,任何报错信息都会导致状态机进入错误处理环节。
对于非流式数据读取,html错误页源码请求结束时主动调用finishBlockMode将所有数据读出并缓存到rows中。对于流式执行的情况,结果集状态机消费数据包队列由XResult的next函数推动,内部函数internalFetchOneObject递归调用前序XResult,消费前序请求结果,从数据包队列中消费并推动状态机流转。
对于查询,首先收到RESULTSET_COLUMN_META_DATA包,表示返回数据列定义,一个包表示一列。元数据包后,收到包含数据行的RESULTSET_ROW包,一个包对应一行。数据行传输完成后,server端发送RESULTSET_FETCH_DONE标示数据发送完成。请求结束前,NOTICE包用于告知客户端rows affected等信息。最后,SQL_STMT_EXECUTE_OK包标示请求结束。
至此,完整请求处理完成,控制台应显示查询结果。
总结
本文详细描述了私有协议连接流程中的关键点和关键数据结构,相信通过本文描述,大家掌握了私有协议连接流程的基本点,在调试和修改使用中能够更加得心应手。虽然本文篇幅较长,但实际使用中涉及更多高级特性的使用,如多请求流水线、流控、执行计划传输、chunk结果集传输等。通过本文,我们对私有协议连接流程有了深入理解,为在实际场景中应用提供坚实基础。
mongodb内核源码实现、性能调优、最佳运维实践系列-表级qps及表级详细时延统计实现原理
针对 MongoDB 内核源码实现中的表级 QPS(查询每秒操作数)及表级详细时延统计实现原理,本文将深入探讨其设计、核心代码实现以及最佳运维实践。作者为 OPPO 文档数据库 MongoDB 负责人,专注于分布式缓存、高性能服务端、数据库、中间件等相关研发工作,持续分享《MongoDB 内核源码设计、性能优化、最佳运维实践》。以下内容将围绕 MongoDB 内核中提供的数据导出及恢复工具(mongodump、mongorestore、mongoexport、mongoimport)、客户端 shell 链接工具(mongo)、IO 测试工具(mongoperf)以及流量 QPS/时延监控统计工具(mongostat、mongotop)进行分析。
Mongostat 和 mongotop 提供的监控统计功能虽然强大,但其功能局限性在于无法实现对表级 QPS 与详细时延的监控。为解决这一问题,MongoDB 实际上提供了内部实现的表级别统计接口。本文将详细解析这些接口的实现原理、核心代码以及如何应用到最佳运维实践中。
### 1. mongostat、mongotop 监控统计信息分析
Mongostat 和 mongotop 工具作为 MongoDB 的官方监控工具,分别提供了集群操作统计与表级别的读写时延统计。接下来,我们将深入探讨这些工具的使用方法、监控项以及功能实现。
#### 1.1 mongostat 监控统计分析
Mongostat 工具能够监控当前集群中各种操作的统计情况,包括增、删、改、查操作,以及 getMore(用于批量拉取数据时的游标操作)和 command(在 mongos 和 mongod 之间的命令处理)。了解 mongostat 帮助参数的详细说明,有助于更深入地掌握其功能。
#### 1.2 mongotop 监控统计分析
mongotop 则专注于对所有表的读写时延进行统计,并按照总耗时排序,直观地输出结果。分析 mongotop 监控输出项各字段的说明,可以帮助运维人员快速定位性能瓶颈。
### 2. 表级详细操作统计及其时延监控统计实现原理与核心代码
在 MongoDB 内核中,对表级别的增、删、改、查、getMore、command 进行了详细的操作统计,并对每种操作的时延进行了记录。每个表都拥有一个 CollectionData 结构,该结构中存储了所有操作统计和时延统计信息。核心代码定义了 UsageMap、CollectionData、UsageData 及 OperationLatencyHistogram 等关键类,以实现表级别的统计功能。
#### 2.1 表级统计实现原理
通过多层次的类结构分层,MongoDB 实现了表级别的详细统计。核心数据结构包括:UsageMap(使用 StringMap 表结构存储所有表名及其对应的表级统计信息)、CollectionData(包含锁统计、详细请求统计、汇总型统计)、以及 OperationLatencyHistogram(实现表级别的操作汇总统计与时延统计)。
#### 2.2 核心代码实现
MongoDB 表级详细统计实现主要集中在 src/mongo/db/stats 目录下的 top.cpp、top.h、operation_latency_histogram.cpp、operation_latency_histogram.h 四个文件中。其中,核心数据结构的代码实现展示了如何通过 UsageMap 结构存储所有表名及其统计信息,CollectionData 结构用于存储锁统计、详细请求统计和汇总型统计,而 OperationLatencyHistogram 类则实现了汇总型统计中的读、写、command 操作及对应时延统计。
### 3. 表级详细统计对外接口
为了便于运维人员使用表级统计信息,MongoDB 提供了对外接口,包括但不限于锁维度及请求类型维度相关统计接口与汇总型表级别统计接口。通过这些接口,运维人员可以执行特定命令获取表级别的锁统计、请求类型统计以及汇总型统计信息。
### 结论
本文通过深入解析 MongoDB 内核中的表级 QPS 及详细时延统计实现原理,详细介绍了核心代码实现以及对外提供的统计接口。了解这些实现细节对于优化数据库性能、进行高效运维具有重要意义。运维人员可以根据本文内容,结合实际应用场景,实施最佳实践,从而提高 MongoDB 的整体性能与稳定性。
盘点 个 Apache 顶级项目,我拜服了…
Apache软件基金会,全称为Apache Software Foundation(ASF),成立于年7月,是世界上最大的最受欢迎的开源软件基金会,是一个非营利性组织,专门支持开源项目。
目前,ASF旗下有超过+亿美元的价值,为开发者提供免费的开源软件和项目,惠及全球数十亿用户。
接下来,我们将盘点Apache软件基金会旗下的个顶级项目,这些项目在日常开发过程中常常遇到,有的可能已经使用过,而有的则值得学习了解,为未来项目提供参考。
1. Apache(httpd):Apache HTTP Server,中文名阿帕奇,是一个开源的HTTP服务器,支持在UNIX和Windows系统上运行。它自年4月起成为互联网上最受欢迎的web服务器,年2月庆祝了其岁生日。适用于HTML、等静态资源服务,类似于Nginx,但Nginx功能更为强大。
2. Tomcat:Apache开源的Java应用服务器,支持Java Servlet、JavaServer Pages、Java Expression Language和Java WebSocket技术。尽管近年来存在安全漏洞,但因其开源、免费的特性,仍被广泛应用于Java领域,成为主流应用服务器。
3. Commons:包含一系列Java公共组件的项目,提供Java核心API的额外组件,如StringUtils等。提供个实用的类库,极大地方便了Java开发。
4. POI:提供了一系列Java API对Microsoft Office格式文件进行读写处理,如Excel、Word、PowerPoint等文件的读写,功能强大。
5. HttpComponents:提供了HTTP及相关协议的Java组件和工具集,包括HttpCore、HttpClient、HttpAsyncClient,其中HttpClient是常用的HTTP客户端。
6. Logging services:包含Apache的日志服务,如Log4j,是使用最广泛的日志框架,还有Log4j 2、log4php、log4cxx等其他语言的日志框架。
7. Ant:一个较为老的Java项目编译和构建工具,虽然已经较少使用,但依然存在一定的价值。
8. Maven:是一个主流的软件项目管理工具,提供项目自动编译、单元测试、打包、发布等生命周期管理。
9. Subversion:一个开源的版本控制软件,用于代码版本控制、文件版本控制,几乎每个开发者都使用过。
. Struts:一个免费开源的MVC框架,用于创建Java web应用程序,曾风靡一时,但由于漏洞问题,已逐渐被Spring MVC、Spring Boot等替代。
. FreeMarker:是一个基于Java的模板引擎,允许使用简单而强大的模板语言引用Java代码中的对象来生成HTML页面、电子邮件、配置文件、源代码等。
. Velocity:一个基于Java语言的模板引擎,允许使用模板语言引用Java对象生成文本输出。尽管长期未更新,不再被Spring Boot 1.5.x版本支持,但仍推荐使用其他模板引擎。
. Tapestry:一个在Java Web开发界知名的面向组件的Web框架,用于创建高度可伸缩的Web应用程序。
. Shiro:一个功能强大且易于使用的Java安全框架,提供身份验证、授权、加密和会话管理等功能,有助于快速、轻松地开发和保护企业应用程序。
. Dubbo:阿里巴巴开源的分布式服务框架(RPC),曾停止维护后又重启维护并捐献给Apache软件基金会,现在在许多企业中仍大量运用。
. Thrift:一款优秀的、轻量级的RPC框架,最初由Facebook开发,后捐献给Apache软件基金会。支持多种语言,具备高度可扩展性。
. Zookeeper:一个分布式中间件神器,最初由Google Chubby的一个开源实现,主要用途包括配置中心、分布式锁等,支持高度可靠的分布式服务协调中间件。
. Curator:Zookeeper的Java客户端,提供一系列高级API和工具,简化了Zookeeper操作,易于使用。
. SkyWalking:一个可观测性分析平台和应用性能管理系统,提供分布式跟踪、指标监控、性能诊断、度量汇总和可视化的一体化解决方案。
. ShardingSphere:由一组分布式数据库中间件解决方案组成的开源生态系统,包括JDBC、Proxy、Sidecar(计划中),提供数据分片、分布式事务和数据库编排功能。
. Lucene:顶级的开源搜索框架,包括核心搜索库(Lucene core)和搜索服务器(Solr),提供强大的索引和搜索功能。
. ActiveMQ:一款灵活、强大的多协议开源消息中间件,支持JMS 1.1&2.0,目前最流行的Java消息中间件之一。
. RocketMQ:一款重量级、极具竞争力的消息队列产品,由阿里巴巴于年开源,年捐赠给Apache软件基金会,年正式毕业。
. Kafka:一款重量级开源项目,最初由LinkedIn公司开发,后捐献给Apache软件基金会。它是一种分布式、高吞吐量的发布订阅消息系统,能够实时处理大量数据。
. Hadoop:一种高可靠、可伸缩、分布式大数据处理框架,也是大数据行业公认的标准框架。
. HBase:建立在Hadoop HDFS上的非关系数据库,用于大数据存储,适用于随机、实时的读写访问。
. Pig:一个基于Hadoop的大数据分析平台,提供类似SQL的面向数据流的高级语言Pig Latin,用于执行Map Reduce任务。
. Hive:一个基于Hadoop的数据仓库工具,用于提取、转化和加载数据,可以将Hadoop原始结构化数据映射为Hive表,并提供类似SQL的HiveQL语言查询功能。
. Spark:一个用于大规模数据处理的统一分析引擎,支持无边界和有边界数据流上的有状态计算。
. Flink:一个分布式处理引擎框架,用于无边界和有边界数据流上的有状态计算,设计用于在所有常见的集群环境中运行。
. Storm:一个分布式实时计算系统,能够轻松可靠地处理数据流,类似于Hadoop的实时批处理。
. Cassandra:一款可伸缩、高可用、高性能去中心化的分布式数据库,最初由Facebook为了解决消息收件箱搜索问题而设计。
. CouchDB:一个面向文档的分布式数据库,以JSON作为存储格式和查询语言,提供直观可靠的RESTful API接口。
. Groovy:一个功能强大的基于JVM平台的动态编程语言,语法与Java相似,但更简洁、易于学习和高效。
. NetBeans:一款开源开发工具(IDE),集成开发环境和应用框架,支持Java、JavaScript、PHP等编程语言,最初由SUN公司开发,后被Oracle收购并捐赠给Apache软件基金会。
总结:这些顶级项目涵盖了基础组件、Web、分布式、搜索、消息中间件、大数据/数据库、编程语言、工具等多个领域,为Java生态系统的发展做出了巨大贡献。尽管有些项目面临淘汰,但它们都曾经辉煌过,正是这些开源项目推动了Java生态的繁荣。希望本文的分享对大家在日常开发中有所帮助。
BoltDB 事务流程
BoltDB 的事务流程主要围绕 Tx 结构体展开,它在设计上注重对单写控制和内存管理。事务的开始通常通过 db.Update,涉及到的 Rollback 和 Commit 操作在事务管理中起着关键作用。写事务使用 beginRWTx()方法,它通过互斥锁(rwlock)实现单写,避免了文件锁带来的问题。读事务则通过 beginTx()执行,该操作会锁定内存映射,可能影响性能,特别是当写事务频繁需要 remmap时。
初始化阶段,写事务通过拷贝 db.meta 实现版本控制,每次写操作都会更新 metapage 并递增版本号。Commit 时,数据库信息的内存操作完成后,才会进行 B+树的分裂和平衡等ACID事务特性操作。BoltDB的存储基于页(page)和 B+树,每个页面大小通常为操作系统标准的4k,数据以 key-value 形式分布在 bucket 中的 B+树节点上,通过 MVCC机制确保并发控制。
理解 Transaction Commit 的过程,关键在于理解 txid、metapage 和 mmap,这三个元素构成了 BoltDB MVCC机制的核心。对于存储结构和并发特性,可以通过阅读源代码和参考其他资源进行深入学习。BoltDB适合于读多写少的场景,因为其内存映射策略和文件系统操作的方式。要全面掌握 BoltDB,还需要结合详细的代码和理解其内存布局和分页算法。