江南平台网址羊城晚报:WeOps运维监控告警改善OA访问慢的问

2024-04-21 10:33:31| 来源:江南平台app体育 作者:江南官方体育app
9

  IT运维部门平均每月都会接收1-2次内部办公系统访问缓慢的用户反馈或投诉,月月被投诉,IT不胜其烦。经排查,绝大部分时候是由于与某个应用有关的Windows服务器的CPU资源占用奇高,导致系统无法响应用户请求,从而产生“慢”的现象。

  在羊城晚报,内部办公(OA)系统需要遵循“报业网络安全等保第二级”的要求,对服务器日志进行集中收集和留存。

  羊城晚报使用的日志审计系统,采用的时C/S架构,需要在每台服务器上安装一个客户端,该客户端会收集那台服务器产生的日志,并将日志转发到集中日志接收和存储系统。

  可能是bug等原因,安装在Windows服务器上的日志收集客户端软件,时不时“发疯”一样抢占CPU资源,导致资源耗尽,响应卡死。该客户端安装在linux服务器上却一切正常。

  临时的故障解决方法是在Windows服务器上,将该日志收集客户端先停掉,再次启动,故障即可解决。

  羊城晚报数次找到日志审计系统的厂家,要求厂家解决此问题,但厂家反馈是自身日志审计系统是基于开源社区的工具进行二开,该问题属于原始工具的问题,他们也无法彻底处理,并且只在Windows服务器上不定时出现,他们暂时不会花精力投入研究,建议客户每次问题出现后,就手动处理,但每次问题出现时,都伴随对IT部门的投诉。

  *厂家推测:客户端在向集中日志存储系统传送日志时,如果出现失败(比如网络中断),会再次尝试,这种再次传送行为在Windows系统上,可能触发了一些兼容性问题,导致尝试次数越多,旧的资源不会被释放,同时,不断抢占新资源,最终导致服务器资源“耗尽”。

  ① 监控所有Windows服务器的资源情况,并设定告警规则,按照“提醒”“预警”“致命”三个层级,发送告警通知给IT管理员,管理员手工处理,与用户投诉抢时间。

  ② 计划进一步优化到自动化处置(技术上可行,但处置风险和管理要求在评估中),如告警后无人处理,则等待一段时间后,WeOps自动化处置并记录,无需人为干预。

  WeOps监控告警还帮助羊城晚报加快发现生产故障,例如采编系统抽图异常、通讯社稿件无法入库到编辑系统稿件库等,提升核心系统的可用性。


江南平台网址