你饿了吗?PostgreSQL优化教程

本文的第一个公开编号:精化结构。为了更好的阅读体验,请注意

1。架构演进

在O2O外卖领域,对基于位置的服务的需求正在增加,这要求数据库存储地理位置信息。在开源数据库中,PG插件Postgi是支持空间地理数据的最佳插件。

饿了么网上订餐官网

饿吗?在使用过程中,由于性能和容量的原因,数据库结构也在不断变化当第一次使用PG时,公司使用了最简单的结构:一个主机和两个从机,读写分离,主机用于写,从机用于读。一切都进行得很顺利。然而,一段时间后,随着公司业务量的扩大,单一数据库的编写遇到了瓶颈,因此有必要对数据库进行拆分。在水平分割和垂直分割中,垂直分割相对简单。由于饥饿的商业和地理位置之间有很大的相关性,很自然地会想到根据地区进行分割。其结构如下:

饿了么网上订餐官网

将单个主机拆分成多个主机,此时数据库的写入不再是瓶颈世界上的一切都在不断变化,每天都有数百万个订单,相关的地理位置信息数据很容易达到数百GB。有时数据库管理员不得不执行一些系统维护,如导出数据、制作历史档案、更改DDL等。然而,如果一个表的数据有100克以上,这个操作是令人头痛的。此时,有必要水平拆分桌子,将大桌子变成小桌子,并合并业务。饥饿的姚对数据的及时性有很强的要求,所以我们每天都使用一个投票表来进行水平分割。结构如下:

饿了么网上订餐官网

经历了上述数据库体系结构的演变,然后我们还对历史数据进行了归档处理。到目前为止,PG已经能够支持饥饿的姚对数据库的要求

2。“Pit”和优化

2.1磁盘队列和检查点

在PG的运行和维护过程中,我们的DBA经常观察到一段时间内有大量磁盘不规则地等待磁盘队列,磁盘的IOPS也很高。后来,通过日志发现有“checkpointareccurringtoolfrequency”记录,结合检查点时间点,发现一分钟内有70多个wal日志文件,一分钟内写了这么多数据,当然会有diskqueue,但为什么呢?

众所周知,PG也有与Oracle相同的检查点,它有以下两个功能:

确保数据库的一致性,即向硬盘写入脏数据,以确保内存和硬盘上的数据相同;缩短实例恢复的时间。例如恢复,在实例被异常关闭之前没有写到硬盘的脏数据应该通过日志来恢复。如果脏块太多,实例恢复时间将会很长。检查点可以减少脏块的数量,从而缩短实例恢复时间。

从上面可以看出,当检查点将脏数据刷新到硬盘时,PG会将共享缓冲区中的脏缓冲区刷新到磁盘。想象一下,如果shared_buffer=30G,如果脏缓冲占5%,PG还会将1.5G的数据从内存刷新到磁盘,这实际上比高峰工作时间的1.5G大得多。因为要设置full_page_writes=on(此参数必须设置为on以防止数据文件损坏),所以在每个检查点之后对每个数据页的第一次修改将导致在WAL日志中写入整个页面。目前,一次写入数据量太大,但检查点无法避免。有什么方法可以使PG一次不刷新太多数据,随时间改变速度,是的,可以通过以下三个参数来控制:

检查点_段= 256检查点_超时= 30分钟检查点_完成_目标= 0.9

其中,检查点_段和检查点_超时这两个参数控制在什么条件下会发生检查点。如上所述,这意味着每次写入256个wal日志或每隔30分钟就会出现一个检查点。Checkpoint_completion_target指示两个检查点之间完成需要多长时间,例如,两个检查点之间需要30分钟。当检查点_完成_目标= 0.9时,30*0.9=27分钟完成将脏数据刷新到磁盘。值越大,对IO的压力越小磁盘队列在

调整后很少出现。日志输出如下:

2 016-10-1220:05:21.558 CST,,156801,,57 FCF9C7.26481,8421,,2016-10-1122: 40: 07 CST,,0,日志,00000,“检查点完成:已写入590555缓冲区(9.2%);添加了0个transactionlogfile,移除了0个,回收了457个;写=3239.416s,同步=0.021s,总计= 3239.905s同步文件= 119,最长= 0.004秒,平均= 0.000秒”,,,,,,“,

2.2表扩展

在维护过程中,表扩展是一个不可避免的问题。在我们的系统中,一个表一天需要更新几千万次,表数据大约是10w+左右,但是表占用的磁盘空间是10G+左右,这显然是不正常的。后来,我们做了一次真空操作,发现桌子所占的空间突然下降到几十兆(真空并不能像互联网上声称的那样回收桌子所占的空间)。当回收的页面位于存储数据的文件的末尾,并且页面中没有可见的元组(即整个页面都可以被删除)时,我们将执行截断操作,从文件中统一删除末尾的页面,从而减少文件大小和表所占用的空间。从上面,我们可以看到表中有太多的死元组

饿了么网上订餐官网

首先,让我们看看手表的扩展所带来的问题。

表扩展将导致数据扩展,这会占用大量磁盘空间。表扩展指的是索引扩展(除非重建了索引)。表扩展指的是SQL查询效率低下。表扩展将导致PG在真空状态下使用更多的CPU、IO和内存,从而导致整个数据库的性能下降

。是什么导致了表的扩展?这从宝洁公司的MVCC开始。PG是实现多版本并发控制。当PG更新数据时,它不会直接删除旧数据。执行更新操作后,更改数据的旧版本也将保留。当PG删除数据时,它不会直接删除数据,而是标记删除。那些旧版本的数据被称为死元组。有没有办法回收标记为不再使用的数据?是的,宝洁公司提供自动真空和真空操作。在桌子上进行真空操作时,只考虑回收。如果旧版本没有及时回收,表将会扩展。

自动真空相关参数:自动真空_工作_ MEM = -1 #自动真空可以使用内存大小。当它为-1时,使用maintenance_work_mem参数的值,值越大。使用的内存越多,在自动真空自动真空_最大工作进程数= 3 #是否打开的情况下,可以运行的自动真空=on#进程数的值就越大。使用的内存越多,autovacum _ nap time = 1min # auto vacum进程在表上执行auto vacum操作需要多长时间?当对表的dml操作达到行数自动真空分析阈值= 50 #当对表的dml操作达到行数自动真空分析因子= 0.2 #当对表的dml操作达到什么比例时执行自动真空分析操作, 执行自动真空操作自动真空分析比例因子= 0.1 #当表上的dml操作达到什么比例时,执行自动真空成本限制= 1 #当自动真空成本超过该值时,真空将休眠一段时间。 使用真空成本限制参数的值,该值越大,系统上的输入输出压力越大。

2.3表扩展原因

2.3.1长事务

如前所述,由于PG、PG的MVCC,为了确保数据对事务的可见性,是否可以通过真空回收死元组取决于当前系统中是否存在需要检查的正在进行的事务。如有必要,将不会回收deadtuple。因此,对于长事务,死元组的数量将会增加。您可以通过以下语句来查询是否有长期交易:

选择*从项目组_状态_活动位置& LT>。idle 'andpg _ backend _ pid!=pidand(后端_ xidisnotnullorbackend _ xminisnotnull)和extract(epoch from(now-xact _ start))& gt。60sorderbyxact _ start

通常,当长事务结束时,autovacuum可以回收deadtuple以避免表扩展。

2.3.2事件包装

在我们的数据库管理员实际操作和维护过程中,我们发现数据库中不再有事务,这也导致了表的扩展。这很令人费解。后来,我们通过操作系统进程发现了以下进程:3个自动真空进程已经在

饿了么网上订餐官网

数据库中运行。我们之前说过,autovacum _ max _ workers决定了数据库中自动vacum并发运行的最大数量,默认为3,现在只有3个自动vacum进程。没有多余的自动真空过程可以调用。此时,即使hottable进行了大量更新或删除,仍有许多deadtuple需要进行真空操作,但由于没有自动真空过程可用,它必须等待,因此hottable的扩展将变得越来越大。

,但是上图中三个表的数据在我们的实际生产环境中还没有更新。为什么我们仍然需要自动真空?这与topreventwraparound(事务包装防止)相关,因为PG的版本号是uint32,可重用,即超过40亿。如果一个表经历了40亿次事务操作,它将溢出包装。溢出包装发生后,数据表本身中记录的事务号大于当前系统事务号,这将导致过去出现的内容来自未来。因此,需要采取措施来防止这种情况。当表的事务数达到最大xmin(20亿)的一半时,PG将强制将所有行为标记为“冻结”,如果数据库未被冻结,PG将篡改数据库。清理需要扫描表的所有行,并将行的xmin更新为2,然后将pg_class的relfrozenxid更新为执行此操作的事务号,这样即使表的xmin字段永远无法达到最大值,也可以绕过它。对于一个具有高并发性、大量数据和小事务的系统来说,PG为了防止事务绕回而采用自动真空过程是不足为奇的

是否可以通过增加autovacum _ max _ workers参数来防止hottable的表扩展?事实上,

未必如此。autovacum _ max _ workers的增加只会增加hottable成为真空的可能性。想象一下,如果系统中有许多大型表需要重新包装,那么hottable可能会继续扩展,因为autovacuum_max_workers是可用的。此外,增加autovacum _ max _ workers参数可能需要更多内存。后来,我写了一个脚本,在清晨在桌子上手动执行真空维护。表扩展由

2 . 3 . 3服务节点

饿了么网上订餐官网

引起当公司实际使用数据库时,通常会设置一个延迟节点,以便在运行时进行数据恢复。例如,将delayslave设置为将master延迟12小时,那么当由于MASTER上的误操作而导致数据丢失时,可以通过将延迟时间修改为操作之前的时间点来快速恢复数据(也可以通过备份来恢复,但是有点慢)PG版本的PG9.4开始提供延迟支持节点。延迟时间是通过在从属的recovery.conf文件中指定recovery_min_apply_delay参数来设置的。

延迟节点是好的,但是如果使用不当,它将导致主节点上的表扩展。例如,当hot_standby_feedback=on时,从节点会将当前查询状态反馈给主节点。如果是级联环境,它将反馈到顶级主库。至于为什么从机需要反馈查询状态,原因与长事务的原理相同。想象一下,当延迟节点将延迟设置为12小时时,它可能会导致主节点上的表扩展12小时。对于高度并发的数据库,表扩展几个GB是正常的。上图是导致主机扩展的延迟节点的示例。该表的实际数据只有大约5w,但扩展后的数据是2000w+这能避免吗?事实上,对于延迟节点,该参数可以关闭,因为一般延迟节点也不用于查询。同样,最大数据流延迟、最大存档延迟但是,如果备份库用于只读,在大型查询的情况下,可以在会话级别而不是全局级别动态设置这些参数的值。

3 .摘要

在使用数据库的过程中,早期阶段可能只是一个简单的结构,但是随着业务的扩展和数据量的增加,数据库也在不断地演变,无论是在体系结构的变化还是性能的优化方面,以便能够支持业务的需要每种数据库都有各自的优缺点。我们希望扬长避短,充分发挥自己的优势,避免挖坑

<。结束。


每个人都在看:书籍推荐:DDD是企业软件设计和开发的必读书籍。在文章的最后,提供了这本书的电子版本来分享DDD模式从天书到实践
领域驱动的供应链系统商品进入和退出/进入设计的实现
喜欢这篇文章的朋友,欢迎跟我来< br>

大家都在看

相关专题