方法引流的推广,自动运维工具和系统分享!

“网络就像wifi,没有故障的时刻,就没有人意识到它的存在”,这句话有无数的翻版,然则对于网络工程师来说,这就是现身说法。

由于即便是在上千人的公司,网络工程师的人数也仅仅是个位数,以是他们的事情也鲜为人知 。

“网络是不是有问题?”这句话险些成了所有SRE排错时的口头禅,若是这个时刻网络工程师示意缄默,或者无法拿出足够的证据,那背锅险些是无疑的。

若何让网络环境的运行状态加倍透明?若何在每次营业故障的时刻自证清白?这不仅是基础服务团队要体贴的内容,更是整个手艺团队想要领会的黑匣子。

监控

这些自动化运维技巧让网络运维不再背锅

网络装备存活监控

对于SRE来说,需要监控程序是否正常;对于主机组来说,需要监控服务器硬件是否正常;对于网络来说,我们首先需要体贴网络装备是否可达。当一台TOR不可达时,基本上预示着会有一片服务器不可达,营业的痛感是相当强烈的。

网络装备的监控最好和营业监控系统只管解藕,由于网络故障极有可能引发营业系统异常,若是恰巧导致的是营业的监控系统异常,那网络装备的告警将失去可靠性,且不说“监控禁绝”这个锅是谁的,这种局面会让网络工程师Trouble Shooting时陷入被动,延长了故障时间。

每一个网工在走出校门的那一刻,都已经具备基本的编程基础, 况且交换机的数目和服务器的数目有着量级上的差异,以是若是你能看懂几句python,100+的python代码即可搞定一个浅易的装备存活监控的程序,Github中可搜索 NodePingManage 就是一个很好的例子,还可以通过多点部署来消除单点故障。有了这类工具, 今后全网的各个角落的可达性终于明晰, 漆黑的网络环境,似乎反射出了一丝灼烁。

装备日志监控

装备存活告警虽然可以预警许多异常,而且准确度很高,然则对于冗余性做得对照好的网络,能Ping通并不代表完全没问题,此时,仔细的网络工程师会去看日志,这里可以反映出更多细节。对于万台服务器规模,网络装备的数目也就千台,然则逐台查看日志,人肉判断是否有异常,那简直是场噩梦。

《日志告警》程序就成为网络工程师们居家旅行必备之良品,只需要一台Syslog服务器,部署一个日志监控程序,当发现日志中泛起特殊关键字,触发邮件+短信告警即可。这么高峻上的工具固然需要更多的编程技巧,150+ python代码才气搞定。Github中类似的解决方式有许多,搜索LogScanWarning即可获得一个树模案例。

今后你可以在营业无感的情况下,发现网络中的异常, 例如:风扇转速异常/电源模块故障/ospf邻人状态发抖/端口flapping/有黑客在爆破我的装备/装备硬件parity error/模块收发光异常/Kernel报错等等。优异的网络工程师可以在故障发生时快速定位,牛X的网络工程师可以在故障发生前就消除隐患,提防于未然。

流量监控

高速公路铺得再好,也架不住车多人多。确保网络顺畅,品质优良,没有丢包,延时稳固也是网络工程师的职责 ,此时流量监控就成了刚需。

营业的飞速生长体现在网络层面就是DC内流量上涨/DCI流量上涨/IDC出口流量上涨/专线流量上涨,流量监控可以准确掌握营业的岑岭和低谷,当线路需要扩容时,带宽使用率是老板参考的主要数据。一样平常情况下线路中的流量跨越50%即可提议扩容,由于这意味着当备份链路down之后,主线路将泛起拥塞。

接口error监控

接口的Error包监控和流量监控一样,均可以通过snmp采集,OID:ifOutErrors,ifInErrors , Error包泛起增量会直接影响营业的服务质量,一旦发现需要优先处置,否则营业会拎着一堆TcpTimeOut指标找上门来。

固然,可以通过snmp采集的信息另有许多,例如:装备的CPU/内存/温度/防火墙的Session等,掌握这些信息对领会装备的事情环境也颇有益处,若是你要做一个自动化巡检工具,那么这些指标必不可少。市面上提供网络监控的软件有许多,例如:Falcon / Zabbix / Solarwinds / Cacti / Nigos等,有开源的也有收费的,功效类似,此处不加赘述。

自媒体推广策略(企业做自媒体营销的方法)

制造自动化运维工具

第一章中的组合拳打完之后,基本上不会泛起“意料之外的故障”,所有的异常都应该有据可查,当SRE莫名其妙提出对网络环境的质疑时,你应该早已心中有谱。

然则网络工程师的事情并非只有救火,一样平常运维事情中,经常需要配合营业生长做一些线上调换/ 机房扩建/营业类故障排查等。作为一名“懒惰”的网络工程师,程序可以帮忙点什么忙呢?

UserDevice Tracker

这个名词借用于Solarwinds套装中的一个组件,直译为“用户装备追踪器” , 在中小型企业网运维中,经常会有这样的需求:

  • 知道服务器的IP,叨教毗邻在交换机的哪个口?
  • 知道交换机的某个端口,叨教毗邻的服务器的IP是多少?
  • 给你一台服务器的MAC地址,怎么知道在哪个交换机的哪个口?

大型互联网公司一样平常会有CMDB或者网络治理平台来纪录这些信息, 然则若是你是一家中小型企业的网管,没有运维研发团队做支持,而且还在沿用二层的环境(服务器网关在焦点装备),那就对照费劲了。以上几个问题实在归根到底是要捋清晰三个要素的对应关系:PORT<>MAC<>IP 。

举个例子:

这些自动化运维技巧让网络运维不再背锅

一台交换机有多个物理接口,一个物理接口下可以有多个MAC,一个MAC可以对应多个IP,或者不对应任何IP。有了这个基本的模子,只需要做两件事情即可找到全网装备这三元素的对应关系。

首先去服务器直连的交换机获取MAC表(即MAC<->PORT),然后再去服务器的网关装备获取ARP表(即IP<->MAC),这两张表凭据MAC地址作为唯一主键即可获得PORT <->MAC<->IP的对应关系。

信息的获取可以通过模拟上岸或者OID采集均可,Github中也有许多类似的代码可供参考,有了这个对应关系,即便没有CMDB,你依然可以快速定位想要的信息, 通俗网工查找这个信息需要5分钟, 而你只需要5秒钟。

网络装备北向接口的二次封装

一样平常网络运维事情中,经常会有一些 “简朴重复劳动”,例如:为某个接口划分Vlan/给某台装备添加一条指向主机的路由等, 这些操作既没有科技含量,还占用了工程师名贵的时间,更要命的是再简朴的人肉操作,重复的次数只要足够多,总有失误的时刻,正所谓“常在河边走,哪有不湿鞋”,然则在这种问题上犯错误简直是对职业生涯的抹黑,云云“鸡肋”的事情怎么才气干得漂亮?

以《自动划分交换机接口Vlan》的功效为例, 若是有一个工具只需要你提供三个参数:装备IP/端口/vlan编号, 就能自动上岸装备把特定接口划分到指定Vlan,那岂不是美哉。

没错!你需要的是一个对装备封装后的接口, 现在多数网络装备厂商都市提供自己的API,无论是NETCONF照样RESTful,只要读懂了使用手册,即可通过程序轻松调换装备的设置,甚至你可以用加倍”接地气”的方式,用程序“模拟上岸”装备 ,虽然这个方式在效率上比不过NETCONF和RESTful API,然则在通用性上那简直无敌,由于没有哪个厂商的装备不支持SSH或者TELNET的。

有了这个理论基础,一些简朴的网络上的操作就可以通过自己封装的接口来实现调换,甚至可以把调换的权限交给营业,只要营业提交的请求是正当的,调换可立刻上线生效。

此时,肯定会有人大惊失色!把网络装备的权限交给营业,这样真的好么?万一改坏了怎么办……所有的疑惑都是正常的,同时也都是有解的。

照样以《自动划分交换机接口Vlan》举例子,你可以限制程序执行的内容,你可以划定交换机只能是TOR不能是CSW,你可以约束接口只能是Access不能是Trunk,你可以限制被操作的接口下流量必须为0bps,以制止误操作影响到营业,你可以通过动态Token保证接口的平安,你可以要求必须提供接口下现存的MAC以定位接口的位置,你还可以对调用者加白名单,另外,操作乐成后还需要有短信+邮件反馈操作后的效果,等等……

所有的考量都可以固化为代码规则,只有程序是最忠实的执行者。接口可以提供7*24小时整年无休的服务,而人的精神是有限的,用程序去应对营业那些简朴有纪律的需求,节约出工程师名贵的时间来思索人生,这才是网络工程师自动化运维之路的正道。

总结

以上,是笔者连系自身事情经历总结的一些心法,写代码对于网络工程师来说确实有些难度,然则只要跨过这道坎,你会获得更多富足的时间来扩展自己的专业门路,谨以此文,希望能抛砖引玉为自动化网络运维尽绵薄之力。

本文来源于自互联网,不代表n5网立场,侵删。发布者:虚拟资源中心,转载请注明出处:https://www.n5w.com/222468.html

(0)
打赏 微信扫一扫 微信扫一扫
虚拟资源中心虚拟资源中心网络小白
上一篇 2020年6月28日 14:35
下一篇 2020年6月28日 14:35

相关推荐

联系我们

电话:

在线咨询:点击这里给我发消息

邮件:@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

公众号