一、前言
在云服务器运维中,网络问题占线上故障 70% 以上。大多数人遇到网络不通,就疯狂敲命令、乱试乱改。 真正高效的运维,靠的不是命令多,而是一套标准化、分层化的排查思路。本文不讲废话、不堆命令,只给你最精华、最能解决问题的内容: 架构理解 + 万能排障流程 + 监控 + 自动化脚本 + 安全最佳实践。 看完这一篇,你遇到的 99% 网络问题都能快速定位。
二、一张图看懂云主机网络(核心认知)云主机网络分三层:
云平台层(安全组 / EIP / 路由)—— 90% 故障在这里
操作系统层(IP/DNS/ 防火墙)
应用层(端口 / 服务监听)
排查原则:从上往下查,一定能找到问题。
三、只需 3 条命令,搞定 80% 日常排查我只给你最精简、最必须的命令:
1. 查看 IP、网卡、状态
plaintextip addr
2. 查看网关、路由
plaintextip route
3. 查看端口监听
plaintextss -tulnp
就这三条,足够判断: IP 对不对、网卡活不活、网关通不通、服务在不在。
四、万能排障流程
任何网络不通,都按这个顺序查:
1.检查云平台安全组(最重要)
2.检查本机 IP 是否正常
3.检查网关是否能通
4.检查公网是否能通
5.检查 DNS 解析是否正常
6.检查防火墙是否拦截
7.检查应用端口是否监听
一句话口诀: 先云平台 → 再系统 → 最后应用。按照这套流程,不需要经验,不需要猜,问题自动现形。
五、流量监控:快速定位带宽跑满
只需一条工具,看清谁在占流量:plaintextiftop -i eth0
能直接看到: 外部 IP、连接速度、总流量,定位攻击 / 爬虫 / 异常流量非常快。
六、自动化巡检脚本
一行不多、一行不少,企业最实用的精简巡检脚本:
bash运行#!/bin/bash echo "===== 云主机网络一键巡检 ====="
echo "网卡状态:
" ip addr show eth0 | grep -E 'inet|state'
echo "网关:" $(ip route | grep default | awk '{print $3}')
ping -c2 223.5.5.5 >/dev/null && echo "外网状态:正常" || echo "外网状态:异常"
echo "关键端口监听:"
ss -tulnp | grep -E ':22|:80|:443'
echo "===== 巡检完成 ====="
使用:plaintextchmod +x check_net.sh
./check_net.sh
七、云主机网络安全最佳实践(精简 3 条)
1.安全组最小开放,不使用 0.0.0.0/0 放行高危端口
2.关闭系统防火墙,云环境用安全组更稳定
3.禁止不必要端口暴露
plaintextsystemctl stop firewalld
systemctl disable firewalld
八、高频问题一句话定位
SSH 连不上 → 安全组 22 端口
能 ping IP 不能上网 → DNS 异常
内网通、外网不通 → EIP / 路由问题
端口 telnet 不通 → 安全组 / 防火墙 / 服务未启动
带宽突然跑满 → iftop 查异常 IP
九、总结
云主机网络运维的核心不是命令,而是思路。
记住这套万能逻辑: 安全组 → IP → 网关 → DNS → 防火墙 → 端口
从上往下排查,10 分钟内必能定位问题。