SlideShare a Scribd company logo
1 of 24
Download to read offline
盛大游戏
运维体系
Agenda



         盛大游戏运维体系综述

           分子系统介绍

         游戏运维体系未来展望
Agenda



         盛大游戏运维体系综述

          分子系统介绍

         游戏运维体系展望
盛大游戏运维体系发展历程


                  可管理

       可控制
                 为了更好支持快速发展的业务,运维工作必须朝着规范
                 化、标准化、可管理的方向发展,08年起盛大也逐步引
                 入ITIL、安全标准等理念,打造盛大模式的运维体系
可操作
          随着自动化体系日益丰富,盛大开始建立报警和监控
          系统,快速准确地发现和定位故障,提高运维稳定性


  自2004年开始,随着服务器数量的快速增长,盛大着手建立
  游戏远程操作平台,使运维逐渐摆脱依赖人海战术的模式,
  提高生产效率
盛大游戏运维体系-四大主要部分


   • 服务器虚拟化                  • 盛大监控服务体
   • Octopod                   系
   • Autopatch
   • Uniweb
   • 等等
                 自动化   自动化
                  管理    监控


                 流程管   安全管
                  理     理
   • 事件管理                    • 安全审计
   • 问题管理&知识库                • 应用安全
   • 变更管理                    • 系统安全
   • 配置管理                    • 网络安全
Agenda



         盛大游戏运维体系综述

           分子系统介绍

         游戏运维体系未来展望
服务器远程操作平台--Octopod

                                                      自动化   自动化
 Octopod是盛大自主研发的服务器远                                  管理    监控



  程管理系统,系统管理员无需再服                                     流程管
                                                       理
                                                            安全管
                                                             理


  务器现场即可完成所有操作。

                       Octopod Server
                                                      远
                                                      程
  用户管理   信息管理   操作管理    补丁管理            日志管理   游戏管理
                                                      桌
                                                      面
  基础框架


                           Octopod Client
  通讯层
  基础层
服务器虚拟化软件系统

盛大积极倡导虚拟化技术的运用:        自动化   自动化
                       管理    监控

• 虚拟化软件采用了盛大自主研发的虚拟化
                       流程管   安全管
  操作系统                  理     理



• 虚拟化管理系统和盛大的服务器管理系统
  进行无缝的整合
服务器虚拟化软件系统

盛大自2007年起建设和推广服务器虚拟化软件系统,
实现了以下目标:
       •可将目前一主流台服务器虚拟成独立的多台不等的服务
  高效   器
       •极大地提高了服务器的部署效率



  节地
       •大量节约服务器数量;
       •大量节约机柜数量


  节能
       •大量节约电力
盛大游戏客户端补丁自动更新系统

盛大游戏客户端补丁自动更新系统可实现用户                                            自动化
                                                                管理
                                                                      自动化
                                                                      监控

 管理、版本管理、补丁上传下发及校验等                                             流程管   安全管

 功能。                                                             理     理




                                       ……………
                                                               DLC前台服务器组

                         传奇世界   冒险岛                   彩虹岛
                         英雄年代   泡泡堂                  热血传奇




                  任务信息                          备份             DLC后台服务器组


                                      Master           Slave
 管理系统




        Patch文件

                                               ……………           Autopatch服务器组


 SVN
盛大业务运维监控体系

盛大业务运维监控体系有针对性地对所有可                 自动化   自动化

 能影响游戏运营的因素进行全方位的监控                 管理    监控


 和数据采集、分析,目前能展示10万多条                流程管
                                     理
                                          安全管
                                           理
 再现人数和性能曲线,监控覆盖率达
 100%,报警有效率达70%以上。
        •游戏客户端质量监控
                      游戏客户端

      •游戏服务器端程序监控
                     游戏服务器端应用   游
     •系统日志的收集和分析
                                戏
                                人
                      系统程序      数
   •游戏服务器健康检查                   监
   和性能监控
   •网络设备和流量监控                   控
                     服务器、网络设备
                        硬件
   •IDC网络质量监控
   •IDC机房连通性监控
                      机房、链路
盛大业务运维监控体系


盛大业务运维监控体系的监控范围包括:
  游戏在线人数监控;
  游戏服务器端程序监控;
  游戏服务器健康检查和性能监控;
  系统日志的收集和分析;
  网络设备和流量监控;
  IDC网络质量监控;
  IDC机房连通性监控;
  其他专项业务监控
盛大业务运维监控体系

盛大业务运维监控体系的系统特点如下:
  从客户端到服务器端的完整覆盖;
  支持统一的监控策略配置和完整性检查;
  丰富的监控曲线展示界面;
  海量报警信息的有效关联和过滤;
  与ITIL事件管理紧密结合,报警自动转化为应急响
   应工作平台的事件单
  7*24小时处理。

      玩家            玩家



      玩家             玩家
运维安全体系
                                     自动化   自动化
                                     管理    监控


                                     流程管   安全管
               安全审计                   理     理



 内部用户登录审计、外部用户权限审计、内部用户操作行为审计


  应用安全          系统安全      网络安全

 •Web漏洞扫描      •补丁分发管理
 •Webshell监控   •主机访问控制   •ARP攻击测试
 •渗透性测试        •病毒扫描     •DDOS攻击防御
 •Web代码审计      •漏洞跟踪     •网络访问控制
                         •网络流量分析
运维安全-网络安全

网络安全     ARP攻击检测    DDOS攻击防御    网络访问控制     网络流量分析


 ARP攻击监控       DDOS攻击          网络访问      网络流量分析
    报警             防御           控制
 • 自研开发每3     • 千兆级抗       • 防火墙实现       • 基于Netflow自
   分钟检测一        DDOS设备                     研开发
   次            +ACL过滤常见   • 交换机ACL实     • 实施完成后通
                攻击           现             过快速分析异
                                           常流量
 • 发现攻击及      • 旁路式全局                    • 迅速定位攻击
   时上报至应        DDOS流量清                    类型及时响应
   急响应平台        洗
运维安全体系-系统安全

系统安全     补丁分发管理       主机访问控制       病毒扫描    漏洞跟踪与预警



  补丁管理        主机访问控制            病毒扫描        漏洞跟踪
• 基于Octopod   • Uinx/Linux采用   • 统一的病毒库   • 跟踪国外安全
                iptables实施控      升级策略       机构最新漏洞
• 万台服务器补        制
  丁快速分发安                       • 统一的全网病   • 跟踪黑客群体
  装与检查        • Windows采用        扫描策略       最新动向
                ipsec实施控制
                               • 统一的事件上   • 跟踪最新0day
                                 报应急响应平
                                 台策略      • 及时预警采取
                                            应对方案
运维安全体系-应用安全

应用安全   Web漏洞扫描   Webshell监控   渗透性测试   web代码审计



 Web漏洞扫描   Webshell监控         渗透性测试     网站代码审计

• 发现和消除网   • 自研开发,对       • 定期对内部系     • 通过网站上
  站安全漏洞      公司网站每小         统进行安全性       线前的代码
             时扫描一次          测试           检查机制
• 自动化工具定                  • 查找权限问题
  期扫描      • 统一的网站检       • SQL注入      • 及时处理网
             测策略          • 跨站脚本         站存在安全
                                         漏洞
           • 检测报警上报       • 及时修补安全
             应急响应平台         问题
运维安全体系-安全审计

 安全审计   内部用户登录审计   内部用户权限审计   内部用户操作行为审计



   登录审计            权限审计          操作行为审计

• 实现对服务器登录日    • 实现对用户访问服务    • 实现对windows图形
  志的审计           器权限的审计         环境屏幕录像审计
                              • 实现对Octopod操作
• 实现内部应用系统登    • 实现对用户访问内部      日志的审计
  录日志的审计         应用系统的审计      • 实现内部应用系统操
                                作行为的审计
• 审计登录中存在的异    • 审计出不合理的权限
  常的行为         • 消除安全隐患       • 审计异常和违规的操
                                作行为
运维服务管理体系
                                     自动化   自动化
随着系统、技术的日益复杂,维护水平要求的                 管理    监控


逐步提高,盛大运维团队借鉴业界最佳实践                  流程管
                                      理
                                           安全管
                                            理
ITIL的理念,从人员、流程、技术等各方面着
手,逐步提升管理能力,以有限的人力支持不
断扩展的游戏数量。

  调整组织结构,以适应业
  务和流程的需求,并实现
     量化考核

                    人员        以服务导向取代技
                                 术导向
 通过合适的技术,固化流
 程,以及提升自动化程度        服务
                              参考业界最佳实践,
                               建设规范化流程
               技术        流程
运维服务管理体系
 借鉴ITIL等业界最佳时间,技术保障中心开发实施了事件管理、问题管理、
变更管理、配置管理等流程,通过一系列平台的推广使用,配合相应管理制度、
流程的推行,使得所提供的服务日趋稳定和成熟。
 配合建立的知识库,提供了经验、技能的沉淀模式,有助于人员的培养。


                                                                  IT服务管理体系
                                                                              变更请求



                                                           报警事件   A Group    A Group 变更请求 Group
                                                                                         A
   Service Continuity Management   Information Lifecycle
                                       Management
                                                                   事件管理        问题管理        变更管理


      监控体系



                                                                             设备管理平台/          知识库
                                                            数据采集/校验          配置管理数据库
Agenda



         盛大游戏运维体系综述

           分子系统介绍

         游戏运维体系未来展望
盛大游戏运维体系框架—建设愿景
盛大游戏运维体系框架—建设重点

持续发展体系框架下的各模块:
运维自动化
   服务器自动安装
   服务器虚拟化推广
   系统软件自动安装
   应用软件自动安装和版本管理
   客户端补丁自动更新
监控自动化
  全景监控策略配置和监控展示
流程管理
  服务导向为核心,建设服务保障
  平台
THANK YOU

More Related Content

What's hot

Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
drewz lin
 
张松国 腾讯微博架构介绍08
张松国 腾讯微博架构介绍08张松国 腾讯微博架构介绍08
张松国 腾讯微博架构介绍08
drewz lin
 
新浪微博平台与安全架构
新浪微博平台与安全架构新浪微博平台与安全架构
新浪微博平台与安全架构
n716
 
数据库性能诊断的七种武器
数据库性能诊断的七种武器数据库性能诊断的七种武器
数据库性能诊断的七种武器
Leyi (Kamus) Zhang
 
大型视频网站单点分析与可用性提升-Qcon2011
大型视频网站单点分析与可用性提升-Qcon2011大型视频网站单点分析与可用性提升-Qcon2011
大型视频网站单点分析与可用性提升-Qcon2011
Yiwei Ma
 
Accelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud eraAccelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud era
Junchi Zhang
 
艺龙旅行网架构案例分享-Qcon2011
艺龙旅行网架构案例分享-Qcon2011艺龙旅行网架构案例分享-Qcon2011
艺龙旅行网架构案例分享-Qcon2011
Yiwei Ma
 
Top100summit 高楼-7点测试-zee-性能测试案例分享
Top100summit 高楼-7点测试-zee-性能测试案例分享Top100summit 高楼-7点测试-zee-性能测试案例分享
Top100summit 高楼-7点测试-zee-性能测试案例分享
drewz lin
 

What's hot (18)

Java@taobao
Java@taobaoJava@taobao
Java@taobao
 
大型系统的Java中间件实践q con北京
大型系统的Java中间件实践q con北京大型系统的Java中间件实践q con北京
大型系统的Java中间件实践q con北京
 
淘宝Java中间件之路 it168
淘宝Java中间件之路 it168淘宝Java中间件之路 it168
淘宝Java中间件之路 it168
 
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
 
张松国 腾讯微博架构介绍08
张松国 腾讯微博架构介绍08张松国 腾讯微博架构介绍08
张松国 腾讯微博架构介绍08
 
20120613联动优势数据访问层DAL架构和实践4(刘胜)最新特性
20120613联动优势数据访问层DAL架构和实践4(刘胜)最新特性20120613联动优势数据访问层DAL架构和实践4(刘胜)最新特性
20120613联动优势数据访问层DAL架构和实践4(刘胜)最新特性
 
新浪微博平台与安全架构
新浪微博平台与安全架构新浪微博平台与安全架构
新浪微博平台与安全架构
 
开源应用日志收集系统
开源应用日志收集系统开源应用日志收集系统
开源应用日志收集系统
 
集群运维管理平台
集群运维管理平台集群运维管理平台
集群运维管理平台
 
中大型规模的网站架构运维 Saac
中大型规模的网站架构运维 Saac中大型规模的网站架构运维 Saac
中大型规模的网站架构运维 Saac
 
数据库性能诊断的七种武器
数据库性能诊断的七种武器数据库性能诊断的七种武器
数据库性能诊断的七种武器
 
大型视频网站单点分析与可用性提升-Qcon2011
大型视频网站单点分析与可用性提升-Qcon2011大型视频网站单点分析与可用性提升-Qcon2011
大型视频网站单点分析与可用性提升-Qcon2011
 
Accelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud eraAccelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud era
 
艺龙旅行网架构案例分享-Qcon2011
艺龙旅行网架构案例分享-Qcon2011艺龙旅行网架构案例分享-Qcon2011
艺龙旅行网架构案例分享-Qcon2011
 
豆瓣数据架构实践
豆瓣数据架构实践豆瓣数据架构实践
豆瓣数据架构实践
 
Top100summit 高楼-7点测试-zee-性能测试案例分享
Top100summit 高楼-7点测试-zee-性能测试案例分享Top100summit 高楼-7点测试-zee-性能测试案例分享
Top100summit 高楼-7点测试-zee-性能测试案例分享
 
百度 刘宁 系统也智慧
百度 刘宁 系统也智慧百度 刘宁 系统也智慧
百度 刘宁 系统也智慧
 
美团数据库运维平台介绍
美团数据库运维平台介绍美团数据库运维平台介绍
美团数据库运维平台介绍
 

Similar to 盛大游戏运维体系

百度 fuye
百度 fuye百度 fuye
百度 fuye
dachmx
 
分会场四服务器安全防护的意义与价值
分会场四服务器安全防护的意义与价值分会场四服务器安全防护的意义与价值
分会场四服务器安全防护的意义与价值
ITband
 
阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划
阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划
阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划
colderboy17
 
阿里巴巴运维自动化的探索与规划
阿里巴巴运维自动化的探索与规划阿里巴巴运维自动化的探索与规划
阿里巴巴运维自动化的探索与规划
mysqlops
 
腾讯大讲堂30 运维工具让你的开发运营更轻松
腾讯大讲堂30 运维工具让你的开发运营更轻松腾讯大讲堂30 运维工具让你的开发运营更轻松
腾讯大讲堂30 运维工具让你的开发运营更轻松
Michael Zhang
 
腾讯大讲堂30 运维工具让你的开发运营更轻松
腾讯大讲堂30 运维工具让你的开发运营更轻松腾讯大讲堂30 运维工具让你的开发运营更轻松
腾讯大讲堂30 运维工具让你的开发运营更轻松
areyouok
 
6.web 安全架构浅谈
6.web 安全架构浅谈6.web 安全架构浅谈
6.web 安全架构浅谈
Hsiao Tim
 
分会场六利用赛门铁克的Sort工具降低风险,提高应用的持续运行时间 中文版
分会场六利用赛门铁克的Sort工具降低风险,提高应用的持续运行时间 中文版分会场六利用赛门铁克的Sort工具降低风险,提高应用的持续运行时间 中文版
分会场六利用赛门铁克的Sort工具降低风险,提高应用的持续运行时间 中文版
ITband
 
Top100summit 互联网发布与实验体系建设
Top100summit 互联网发布与实验体系建设 Top100summit 互联网发布与实验体系建设
Top100summit 互联网发布与实验体系建设
drewz lin
 
Brochure ahn lab trusguard utm
Brochure ahn lab trusguard utmBrochure ahn lab trusguard utm
Brochure ahn lab trusguard utm
ahnlabchina
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
colderboy17
 

Similar to 盛大游戏运维体系 (20)

baidu fuye
baidu fuyebaidu fuye
baidu fuye
 
百度 fuye
百度 fuye百度 fuye
百度 fuye
 
分会场四服务器安全防护的意义与价值
分会场四服务器安全防护的意义与价值分会场四服务器安全防护的意义与价值
分会场四服务器安全防护的意义与价值
 
Mocha Bsm
Mocha BsmMocha Bsm
Mocha Bsm
 
阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划
阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划
阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划
 
阿里巴巴运维自动化的探索与规划
阿里巴巴运维自动化的探索与规划阿里巴巴运维自动化的探索与规划
阿里巴巴运维自动化的探索与规划
 
腾讯大讲堂30 运维工具让你的开发运营更轻松
腾讯大讲堂30 运维工具让你的开发运营更轻松腾讯大讲堂30 运维工具让你的开发运营更轻松
腾讯大讲堂30 运维工具让你的开发运营更轻松
 
腾讯大讲堂30 运维工具让你的开发运营更轻松
腾讯大讲堂30 运维工具让你的开发运营更轻松腾讯大讲堂30 运维工具让你的开发运营更轻松
腾讯大讲堂30 运维工具让你的开发运营更轻松
 
阿里云 张旭 集群运维管理平台
阿里云 张旭 集群运维管理平台阿里云 张旭 集群运维管理平台
阿里云 张旭 集群运维管理平台
 
赛诺朗基全局事件管理
赛诺朗基全局事件管理赛诺朗基全局事件管理
赛诺朗基全局事件管理
 
6.web 安全架构浅谈
6.web 安全架构浅谈6.web 安全架构浅谈
6.web 安全架构浅谈
 
分会场六利用赛门铁克的Sort工具降低风险,提高应用的持续运行时间 中文版
分会场六利用赛门铁克的Sort工具降低风险,提高应用的持续运行时间 中文版分会场六利用赛门铁克的Sort工具降低风险,提高应用的持续运行时间 中文版
分会场六利用赛门铁克的Sort工具降低风险,提高应用的持续运行时间 中文版
 
未来网络技术发展探梦 - 开篇
未来网络技术发展探梦 - 开篇未来网络技术发展探梦 - 开篇
未来网络技术发展探梦 - 开篇
 
Top100summit 互联网发布与实验体系建设
Top100summit 互联网发布与实验体系建设 Top100summit 互联网发布与实验体系建设
Top100summit 互联网发布与实验体系建设
 
SWsoft_Prim@Telecom
SWsoft_Prim@TelecomSWsoft_Prim@Telecom
SWsoft_Prim@Telecom
 
Brochure ahn lab trusguard utm
Brochure ahn lab trusguard utmBrochure ahn lab trusguard utm
Brochure ahn lab trusguard utm
 
Internet System Security Overview
Internet System Security OverviewInternet System Security Overview
Internet System Security Overview
 
智能车软件设计浅谈 清华-张天雷-上传版本
智能车软件设计浅谈 清华-张天雷-上传版本智能车软件设计浅谈 清华-张天雷-上传版本
智能车软件设计浅谈 清华-张天雷-上传版本
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
 

盛大游戏运维体系

  • 2. Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系未来展望
  • 3. Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系展望
  • 4. 盛大游戏运维体系发展历程 可管理 可控制 为了更好支持快速发展的业务,运维工作必须朝着规范 化、标准化、可管理的方向发展,08年起盛大也逐步引 入ITIL、安全标准等理念,打造盛大模式的运维体系 可操作 随着自动化体系日益丰富,盛大开始建立报警和监控 系统,快速准确地发现和定位故障,提高运维稳定性 自2004年开始,随着服务器数量的快速增长,盛大着手建立 游戏远程操作平台,使运维逐渐摆脱依赖人海战术的模式, 提高生产效率
  • 5. 盛大游戏运维体系-四大主要部分 • 服务器虚拟化 • 盛大监控服务体 • Octopod 系 • Autopatch • Uniweb • 等等 自动化 自动化 管理 监控 流程管 安全管 理 理 • 事件管理 • 安全审计 • 问题管理&知识库 • 应用安全 • 变更管理 • 系统安全 • 配置管理 • 网络安全
  • 6. Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系未来展望
  • 7. 服务器远程操作平台--Octopod 自动化 自动化 Octopod是盛大自主研发的服务器远 管理 监控 程管理系统,系统管理员无需再服 流程管 理 安全管 理 务器现场即可完成所有操作。 Octopod Server 远 程 用户管理 信息管理 操作管理 补丁管理 日志管理 游戏管理 桌 面 基础框架 Octopod Client 通讯层 基础层
  • 8. 服务器虚拟化软件系统 盛大积极倡导虚拟化技术的运用: 自动化 自动化 管理 监控 • 虚拟化软件采用了盛大自主研发的虚拟化 流程管 安全管 操作系统 理 理 • 虚拟化管理系统和盛大的服务器管理系统 进行无缝的整合
  • 9. 服务器虚拟化软件系统 盛大自2007年起建设和推广服务器虚拟化软件系统, 实现了以下目标: •可将目前一主流台服务器虚拟成独立的多台不等的服务 高效 器 •极大地提高了服务器的部署效率 节地 •大量节约服务器数量; •大量节约机柜数量 节能 •大量节约电力
  • 10. 盛大游戏客户端补丁自动更新系统 盛大游戏客户端补丁自动更新系统可实现用户 自动化 管理 自动化 监控 管理、版本管理、补丁上传下发及校验等 流程管 安全管 功能。 理 理 …………… DLC前台服务器组 传奇世界 冒险岛 彩虹岛 英雄年代 泡泡堂 热血传奇 任务信息 备份 DLC后台服务器组 Master Slave 管理系统 Patch文件 …………… Autopatch服务器组 SVN
  • 11. 盛大业务运维监控体系 盛大业务运维监控体系有针对性地对所有可 自动化 自动化 能影响游戏运营的因素进行全方位的监控 管理 监控 和数据采集、分析,目前能展示10万多条 流程管 理 安全管 理 再现人数和性能曲线,监控覆盖率达 100%,报警有效率达70%以上。 •游戏客户端质量监控 游戏客户端 •游戏服务器端程序监控 游戏服务器端应用 游 •系统日志的收集和分析 戏 人 系统程序 数 •游戏服务器健康检查 监 和性能监控 •网络设备和流量监控 控 服务器、网络设备 硬件 •IDC网络质量监控 •IDC机房连通性监控 机房、链路
  • 12. 盛大业务运维监控体系 盛大业务运维监控体系的监控范围包括:  游戏在线人数监控;  游戏服务器端程序监控;  游戏服务器健康检查和性能监控;  系统日志的收集和分析;  网络设备和流量监控;  IDC网络质量监控;  IDC机房连通性监控;  其他专项业务监控
  • 13. 盛大业务运维监控体系 盛大业务运维监控体系的系统特点如下: 从客户端到服务器端的完整覆盖; 支持统一的监控策略配置和完整性检查; 丰富的监控曲线展示界面; 海量报警信息的有效关联和过滤; 与ITIL事件管理紧密结合,报警自动转化为应急响 应工作平台的事件单 7*24小时处理。 玩家 玩家 玩家 玩家
  • 14. 运维安全体系 自动化 自动化 管理 监控 流程管 安全管 安全审计 理 理 内部用户登录审计、外部用户权限审计、内部用户操作行为审计 应用安全 系统安全 网络安全 •Web漏洞扫描 •补丁分发管理 •Webshell监控 •主机访问控制 •ARP攻击测试 •渗透性测试 •病毒扫描 •DDOS攻击防御 •Web代码审计 •漏洞跟踪 •网络访问控制 •网络流量分析
  • 15. 运维安全-网络安全 网络安全 ARP攻击检测 DDOS攻击防御 网络访问控制 网络流量分析 ARP攻击监控 DDOS攻击 网络访问 网络流量分析 报警 防御 控制 • 自研开发每3 • 千兆级抗 • 防火墙实现 • 基于Netflow自 分钟检测一 DDOS设备 研开发 次 +ACL过滤常见 • 交换机ACL实 • 实施完成后通 攻击 现 过快速分析异 常流量 • 发现攻击及 • 旁路式全局 • 迅速定位攻击 时上报至应 DDOS流量清 类型及时响应 急响应平台 洗
  • 16. 运维安全体系-系统安全 系统安全 补丁分发管理 主机访问控制 病毒扫描 漏洞跟踪与预警 补丁管理 主机访问控制 病毒扫描 漏洞跟踪 • 基于Octopod • Uinx/Linux采用 • 统一的病毒库 • 跟踪国外安全 iptables实施控 升级策略 机构最新漏洞 • 万台服务器补 制 丁快速分发安 • 统一的全网病 • 跟踪黑客群体 装与检查 • Windows采用 扫描策略 最新动向 ipsec实施控制 • 统一的事件上 • 跟踪最新0day 报应急响应平 台策略 • 及时预警采取 应对方案
  • 17. 运维安全体系-应用安全 应用安全 Web漏洞扫描 Webshell监控 渗透性测试 web代码审计 Web漏洞扫描 Webshell监控 渗透性测试 网站代码审计 • 发现和消除网 • 自研开发,对 • 定期对内部系 • 通过网站上 站安全漏洞 公司网站每小 统进行安全性 线前的代码 时扫描一次 测试 检查机制 • 自动化工具定 • 查找权限问题 期扫描 • 统一的网站检 • SQL注入 • 及时处理网 测策略 • 跨站脚本 站存在安全 漏洞 • 检测报警上报 • 及时修补安全 应急响应平台 问题
  • 18. 运维安全体系-安全审计 安全审计 内部用户登录审计 内部用户权限审计 内部用户操作行为审计 登录审计 权限审计 操作行为审计 • 实现对服务器登录日 • 实现对用户访问服务 • 实现对windows图形 志的审计 器权限的审计 环境屏幕录像审计 • 实现对Octopod操作 • 实现内部应用系统登 • 实现对用户访问内部 日志的审计 录日志的审计 应用系统的审计 • 实现内部应用系统操 作行为的审计 • 审计登录中存在的异 • 审计出不合理的权限 常的行为 • 消除安全隐患 • 审计异常和违规的操 作行为
  • 19. 运维服务管理体系 自动化 自动化 随着系统、技术的日益复杂,维护水平要求的 管理 监控 逐步提高,盛大运维团队借鉴业界最佳实践 流程管 理 安全管 理 ITIL的理念,从人员、流程、技术等各方面着 手,逐步提升管理能力,以有限的人力支持不 断扩展的游戏数量。 调整组织结构,以适应业 务和流程的需求,并实现 量化考核 人员 以服务导向取代技 术导向 通过合适的技术,固化流 程,以及提升自动化程度 服务 参考业界最佳实践, 建设规范化流程 技术 流程
  • 20. 运维服务管理体系  借鉴ITIL等业界最佳时间,技术保障中心开发实施了事件管理、问题管理、 变更管理、配置管理等流程,通过一系列平台的推广使用,配合相应管理制度、 流程的推行,使得所提供的服务日趋稳定和成熟。  配合建立的知识库,提供了经验、技能的沉淀模式,有助于人员的培养。 IT服务管理体系 变更请求 报警事件 A Group A Group 变更请求 Group A Service Continuity Management Information Lifecycle Management 事件管理 问题管理 变更管理 监控体系 设备管理平台/ 知识库 数据采集/校验 配置管理数据库
  • 21. Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系未来展望
  • 23. 盛大游戏运维体系框架—建设重点 持续发展体系框架下的各模块: 运维自动化  服务器自动安装  服务器虚拟化推广  系统软件自动安装  应用软件自动安装和版本管理  客户端补丁自动更新 监控自动化 全景监控策略配置和监控展示 流程管理 服务导向为核心,建设服务保障 平台