大茂名网

 找回密码
 用户注册

QQ登录

只需一步,快速开始

查看: 242|回复: 0

[【编导】] 说一说:懂事的网络工程师,早该学会处理这种故障了2022/12/26 16:37:06

[复制链接]

2万

主题

2万

帖子

9万

积分

钻石元老

Rank: 24Rank: 24Rank: 24Rank: 24Rank: 24Rank: 24

积分
98065
发表于 2022-12-26 16:37 | 显示全部楼层 |阅读模式

马上注册登陆,结交更多好友,享用更多功能,让你轻松玩转社区

您需要 登录 才可以下载或查看,没有账号?用户注册

x

今天老杨的一位粉丝和我分享了关于他工作中亲眼见到的,排错时发生的“惨状”图片,老杨通篇看下来,觉得很有借鉴意义,可供新手工们多参考。大家好,我是老杨。域名IP查询的具体问题可以到我们网站了解一下,也有业内领域专业的客服为您解答问题,为成功合作打下一个良好的开端!


?之前我说了很多次,故障排错,是每个工的必修课。很多人一开始都是手残,但手残到引发严重的情况的还是比较少见的。



今天老杨的一位粉丝和我分享了关于他工作中亲眼见到的,排错时发生的“惨状”。



老杨通篇看下来,觉得很有借鉴意义,可供新手工们多参考。







他有一句话我觉得很认同:“由于设备本身的软件或者硬件出现问题而导致的故障,其是比较少见的。”



“大部分都是人为的。”



排错排成这样,谁能比我更夸张

这是我之前工作中遇见过的一次络故障。



我觉得,排错比较重要的点在于,你发现络故障后,得对这个现的络环境有个基本的判断。



你要判断它的组是什么样的,它的配置是什么样的,这些基本的信息你要收集到,你才能对故障进行分析。



所以我先讲下故障发生的背景,也给你们几条线索,一起判断下。







这个故障的背景其就是一个很简单的配置变更。



在中午休息的时间,我的同事对厂区的某一栋楼的汇聚交换机进行配置变更。



他际上是要增加一台接入交换机,因为厂区人员变多了,终端也就变多了,所以现有的络和接入设备不能满足需求,需要新增一台接入层的交换机。



大家都知道,在现中新增一台接入交换机,这个配置是非常简单的。



一般只需要将接入交换机上到机架,两根光纤连到汇聚交换机就搞定了。



而通常你接入交换机连接汇聚交换机需要做什么配置



一般来说,都是将这个接入交换机所需要VLAN配上,再将接入交换机连接汇聚交换机的两个接口,或者一个接口配置成T,搞定就好了。







交换机之间互联的链路需要配置成,这是CCNA学习中很基础的内容,这里我就不多复述了。



然后为了保证这个链路的可靠性,需要从接入交换机到汇聚交换机配置一个链路聚合,这一块也是比较基础的络学习内容,配置也很简单。





本来,按照工作的进展,我同事刷完配置之后就回到了工位休息,而这个故障并没有马上出现。



因为当时午休,没人办公,所以也就没人会发现有这样的问题。



而等到了下午2点钟,上班的人使用络的时候才发觉,“啊楼层交换机出现了故障!”,或者说才发觉当时“不能上了!”



因为对于终端用户来说,比较直观的体验就是电脑上不了。



那上不了怎么办投诉呗。



所以就打给技术支持。



其技术他的配置变更非常简单,只是新增了一台设备,新增了一些配置,可这时候络却出现了故障。



如果是你遇到了这种情况,你会怎么分析这个故障

展开来看下它的络架构,络架构其就是传统的层架构,核心连接汇聚,汇聚连接楼层接入交换机,简单吧







只是说它的络架构会用到堆叠这个技术。



它的核心交换机连接汇聚的时候,汇聚是两台做了堆叠,这边抛开核心交换机不看,两台汇聚交换机做堆叠,堆叠完成后,接入交换机上行两条链路,分别连到2台汇聚交换机。



虽然这边有2台汇聚交换机,但汇聚交换机在逻辑上是一台设备,因为他这两条链路上做了链路捆绑。



链路捆绑也是堆叠的基本技术。



逻辑拓扑如图所示,这个拓扑是个环络把因为用了堆叠这个技术,这样的一个拓扑,它其就是一个环的络。







而汇聚是两台设备,那接入交换机只需要在连接下行的接口配上VLAN,连接下行终端——PC,只要做个VLAN划分,然后我们的上行接口,配置链路聚合,同时将这个上行的链路聚合口配置成口,就这么简单的个配置。



那这么简单的个配置,为什么会导致这个络出现环路



当然,当时还不知道是环路。



因为我同事当时觉得,这个络是没有环路的,而且他用了堆叠,而且配置了链路聚合,这样的络,它是不存在环路的啊……



所以当时他的首反应不是怀疑环路的问题。



此时再看我们的首个线索:环络。



以及第二线索:配置及其简单,只配了,、链路聚合这个。







你分析出什么了吗

往下看第个线索:设备法远程登录。这该怎么理解



际上一般出现络故障之后,一般人会采取应对做的首步动作是什么



肯定是要远程登录到络设备,进行配置查看,要看下配置对不对。



因为都是刷上去的配置,所以首步就是远程登录这台设备,可以登录汇聚交换机也可以登录接入交换机。



但是试图登录的时候发现,上不去。没有办法登录到这两台设备上……



登不上怎么办

设备法远程登录,通常会是什么情况



它法被通,法对它,这应该有同学在工作中遇到过吧



通常发生这种情况,如果设备没有办法通,你只要保证被路由没有问题,而设备却法通,法远程管理,这就说明它的CPU已经满了。



因为所有需要这台设备,需要直接访问这台设备的IP地址的所有报文,都是需要CPU来处理的。



或者这台设备,所有的远程报文都是需要CPU来处理的,这时候如果CPU飙到100%了,就会造成法远程登录和管理。



这时候我同事,终于开始怀疑是不是络环路了……



因为在二层络里面,能够导致CPU100%的情况,大概率是由环路导致的,所以基本上可以判断是一个环路。



但是为什么为什么会出现环路我命配置的环的!哪来的环路

这时候要怎么办只能跑现场了。



当时正好我在现场,由于当天中午临时突发了这个问题,我同事也叫我过去帮忙。



所以我就跟他们一起去现场看了下这个问题到底什么情况。



去现场一般来说你需要带上和笔记本。



去设备的现场,一般通过线远程或者直接连接到这个设备上,登录这个设备查看配置。



但是大家也知道,由于设备CPU100%爆掉了,你如果通过线登录设备,也会非常的卡,基本上你敲命令,过几秒钟才会有反应。



所以一般遇到环路这种问题,设备本身CPU满了,因为你很难对这个设备进行配置查看,也就很难排查。



所以当时用了个比较笨的办法——拔线。



在汇聚交换机上,汇聚交换机所有连接接入交换机的这个口,一条条去拔线。



比较后拔到新增的这台设备时发现络恢复了,这时候基本上就可以定位到新增的这台交换机设备,它是存在问题的。

可配置明明这么简单,却出现环路了,离谱。



这个地方仅有有可能出现环路的是什么场景



这里我直接告诉你,这是因为这里链路聚合的配置不对。他们在配置链路聚合的时候,只配了一端,只在汇聚交换机上刷了链路聚合的配置。



这里可以看出,汇聚交换机这两个口是捆绑在一起的,但下行的这台接入交换机,他的链路聚合没有配,也就是说,它是2个单独的口。



所以当时拔线拔到了络恢复,我就登录进了设备查看配置。



这一查看让我哭笑不得,发现非常简单,只是漏了两条配置而已,在物理接口下漏配了两条链路聚合的命令,就这么简单。



而就是这么简单的一个问题,就导致了这次的络环路,这时候生成树是不生效的。



其它也开了生成树,他就非常纳闷,“我开了生成树为什么还会有环路是不是你设备有BUG,你设备是不是有问题”



那为什么生成树不起作用

因为对于汇聚交换机来说,只有一个口;

而对于接入交换机来说,却存在单独的2个口。



只是从接入交换机发出的生成树BPDU报文,发到上行接口之后,汇聚交换机不会再从接口发出来。



因为只有一个口,它是不会从这个接口再发出来的,所以这时候设备本身就不会认为络有环路。



于是就导致了,生成树这时候是没有作用的,即使你开了生成树也检测不到环路的。



后来我把链路聚合的配置重新配上了,络就恢复了。



其就是一个非常简单的一个小的疏忽,就在刷配置的时候漏刷了2条命令,从而导致的络故障。



际上在现中的络故障里,50%以上都是人为的,基本上都是人为疏忽、配置变更导致的故障



由于设备本身的软件或者硬件出现问题而导致的故障是比较少见的。



大部分都是人为的,要么配置配的不合理,要么规划不合理,才会导致这样或那样的问题。



所以:认真+扎的基本功=好工。



在工作的早期,我想很多络工程师应该都会出现类似情况,会发生这样或那样的不该出现的错误。



其没关系,只要掌握好络理论知识,认真执行每一个命令,很多问题都能迎刃而解。



像我这个络环路,排查步骤其很简单。



对于环路来说,如果你的络设备没有办法登录,那你只能用比较笨的办法一根根去拔线,因为设备法查看,非常卡。



以上就是今天我分享的排错经历,希望能给你一些启发。?
爱上大茂名,喜当大猫友,吃喝玩乐事,天天乐开怀!
您需要登录后才可以回帖 登录 | 用户注册

本版积分规则

QQ|客服:0668-2886677QQ:75281068|大茂微博|小黑屋|手机版|Archiver|大茂名网 ( 粤ICP备18149867号 )茂名市大茂科技有限公司 版权所有 

GMT+8, 2025-6-8 02:58 , Processed in 0.307463 second(s), 8 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表