Gbase资源管理cgroup问题

近日在创建资源池后日志出现如下gcrecover日志报错.

Gbase资源管理cgroup问题

二.  分析思路
由于是新库,没有数据再跑,首先排除表数据不一致导致的状态不正常.

看到日志中有明显提示该语句可能有问题,且有event事件产生

Gbase资源管理cgroup问题

Gbase资源管理cgroup问题


顺着日志思路提示的是激活资源计划有问题,接着看资源计划,资源池等信息,这些资源池的设置也没有问题.

既然资源设置没有问题,那说明集群设置方面是没有问题的,这时候就要向主机的参数方向去排查问题,翻阅gbase管理员手册发现资源管理这项:

Gbase资源管理cgroup问题

资源管理功能依托于系统服务 cgroup,在不同的操作间存在 cgroup.

资源管理用的是cgroup,而cgroup是操作系统的一个组件

因此顺着cgroup思路向下查找问题;

使用c3工具查看cgroup状态,提示cgroup服务找不到,说明这个服务没有开启或者安装

Gbase资源管理cgroup问题

在使用如下命令: systemctl start cgconfig 尝试启动cgroup,无法启动cgroup服务,说明缺少对应的包

Gbase资源管理cgroup问题

使用以下命令查看cgroup依赖包情况:

rpm -qa | grep libcgroup

rpm -qa | grep cgroup

rpm -qa | grep cgconfig

Gbase资源管理cgroup问题

三.  解决方案

经分析发现缺少libcgroup-tools,这是启动cgroup的服务工具.,使用c3工具全节点安装:

cexec all: ‘yum -y install libcgroup-tools’

安装完成后使用c3工具全节点启动cgroup服务:

  cexec all: ‘systemctl start cgconfig’

Gbase资源管理cgroup问题

启动cgroup服务后集群状态依旧不正常.查看lscgroup的mount状态,查看/etc/cgconfig.conf配置文件,比对别的正常机器的/etc/cgconfig.conf 配置文件

Gbase资源管理cgroup问题

有问题机器的/etc/cgconfig.conf 配置文件

Gbase资源管理cgroup问题

正常机器的/etc/cgconfig.conf 配置文件

Gbase资源管理cgroup问题

发现少了一些内容,将其补充上去然后执行cgclear清除掉默认的所有挂载.

依次按步骤停止cgroup服务,启动cgroup服务

(假若重启cgroup服务未发生变化,可以再尝试重启集群服务,再重启cgroup服务).

systemctl  stop cgconfig

systemctl  start cgconfig

这时候gcadmin发现修改/etc/cgconfig.conf配置文件的主机状态正常了.

Gbase资源管理cgroup问题

已找到集群状态不正常原因, 是由于操作系统安装时没有安装libconfig 相关的rpm 包,导致cgroup服务没有启动,而资源管理功能依托于系统服务 cgroup,在创建资源池后,激活资源计划是因系统cgroup服务未启动,导致集群状态不正常报错指向资源计划,接下来将正常主机的/etc/cgconfig.conf 配置文件 scp 到 各个gnode 上.

执行cgclear后,依次重启cgroup服务

systemctl  stop cgconfig

systemctl  start cgconfig

重启数据节点cgroup服务后,集群状态已恢复正常,且event事件也没有了.

发表评论

登录后才能评论
联系杨振
联系杨振
侵权联系 投诉举报
分享本页
返回顶部