我们有一个AWS
MySQL RDS实例,大小约为1.7T.有时它会变得没有响应,也无法执行任何操作.
> CPU利用率,写入IOPS,读取IOPS,队列深度,写入吞吐量,写入延迟和读取延迟降至零.
>堆积的连接数量.
>“显示引擎innodb状态”挂起
> rdsadmin处于挂起状态的大量查询(每个约25个).
SELECT count(*) from mysql.rds_replication_status WHERE action = 'reset slave' and master_host is NULL and master_port is NULL GROUP BY action_timestamp,called_by_user,action,mysql_version,master_host,master_port ORDER BY action_timestamp LIMIT 1;
SELECT NAME, VALUE FROM mysql.rds_configuration;
>一段时间后,实例会自动重启,并出现以下错误.
启动MySQL重启以解决MySQL引发的日志备份问题.请注意,作为此结果的一部分,将在MySQL完成重新启动后执行数据库快照.
可能是什么问题?这经常发生.有时,令我们惊讶的是,这也发生在非高峰时期.
最佳答案 我遇到了同样的问题并提出了AWS Support的问题.得到以下解释:
RDS监视服务发现了有关备份数据库的二进制日志的问题,这对于时间点恢复(PITR)功能至关重要.为了缓解此问题并为了避免数据损坏,RDS监视重新启动了RDS实例,因此会自动触发重新启动.为了确保没有数据丢失,它拍摄了数据库实例的快照.
虽然RDS实例是多AZ的,但由于以下原因,它没有进行故障转移:
多重AZ有2个标准:
1-单盒体验,这意味着客户即使在故障转移后也始终可以找到他的数据.
2-比单一AZ更高的可用性.
因此,当AWS监控服务将Decision故障转移到备用实例时,必须存在这两个标准,但在您的情况下,AWS监控服务发现了一些可能导致故障转移后数据丢失的风险,这就是为什么它决定重新启动失败了.
希望这可以帮助.在过去的一周里,这发生在我身上3次.