量化带宽要区分理论带宽与可用吞吐,使用多种测试工具在不同时间与方向反复测量,避免一次性测试误判。
使用iperf3做并发流测量(多线程)来逼近TCP吞吐极限,结合UDP测试观察丢包率与抖动;用speedtest-cli或自建服务器做端到端带宽对比。
注意设置足够的并发流数(通常8-16流)、调整MTU、保证测试客户端和VPS的CPU/网卡不是瓶颈,并在峰值与非峰值时段各做多次测量以取中位数/95百分位。
重点观察往返时延(RTT)、路径跃点、跳变频次、单向延迟与数据包丢失,以及AS路径一致性。
使用tcptraceroute/tracepath验证TCP层路径。结合BGP Looking Glass查看出口AS与社区标记。
稳定路由表现为长期RTT波动小、丢包低(例如<1%),AS路径不频繁变更;频繁的路径切换或多个中间AS导致的延迟骤增都说明路由质量欠佳。
识别运营商所提供的CN2类别(如CN2 GIA与普通CN2/通用CN2)非常重要,GIA通常直连骨干并对公共接入优化,对大陆用户体验更好。
关注对大陆关键节点(如广州、上海、北京的运营商骨干)的单向时延、丢包、与抖动;同时测量TCP握手与TLS建立的时延来评估用户感知。
根据业务类型(HTTP、游戏、VoIP)构建代表性负载测试:短连接频繁的业务更看重建立时延与丢包,长传输流量看吞吐和丢包恢复机制。
列举必须监控的:平均/95/99百分位RTT、丢包率、抖动(jitter)、带宽使用率、连接失败数、BGP路径变更次数、路由可达性。
例如:高延迟告警可设为95百分位RTT > 200ms(对中国方向可根据地域调整);丢包告警设为持续5分钟丢包率>1%;带宽利用率长期>80%需扩容或排查。
使用Prometheus+Grafana、Zabbix或云监控结合主动测试(定时iperf/MTR)和被动流量采样(sFlow/NetFlow)建立可追溯告警链路。
先收集时间序列数据(RTT、丢包、吞吐)、MTR/traceroute历史、iperf测试结果和流量抓包(必要时)。确保所有测量带有精确时间戳与方向信息。
对比多点测试结果以判断问题是本地VPS/机房侧、骨干链路还是对端ISP;通过BGP看是否有异常公告、AS路径突变或垃圾路由。
提供明确证据:时间段、目标IP、MTR/traceroute快照、iperf日志与pcap。请求供应商确认出口点、是否发生链路抖动、是否能调整BGP社区/优先走CN2 GIA等策略,并约定响应时限与恢复方案。