Zscaler ZDX 数字体验监控详解
端到端的云原生数字体验监控平台 — 全面覆盖 SaaS、网络、语音视频和 Wi-Fi
概述与核心价值
什么是 ZDX
Zscaler Digital Experience (ZDX) 是 Zscaler 提供的云原生数字体验监控平台,使网络运营和服务台团队能够保持用户生产力。通过监控从用户设备内部、跨网络到 SaaS、云或数据中心应用的网络性能,IT 团队可以:
- 快速检测问题
- 快速排查根本原因
- 快速解决用户体验问题
核心价值主张
| 能力 | 说明 |
|---|---|
| 端到端可见性 | 在零信任环境中实现全面可见性,优化性能并快速修复影响生产力的问题 |
| 用户体验量化 | 通过 ZDX Score 量化用户体验,快速识别性能下降 |
| 跨环境监控 | 监控所有位置、设备和应用的性能 |
| 主动式运维 | 在问题影响用户之前识别并解决 |
"[ZDX] 帮助我们在问题影响 AMN 用户之前识别需要解决的问题,从而确保随时随地提供无缝体验。"
ZDX 架构解析
云架构概述
ZDX 在 Zscaler 云基础设施内作为多租户服务运行。Hosted Monitoring 允许您将 Web 和 Cloud Path 探针逻辑分组到独立集合中,为监控性能设置自己的测试。
Zscaler Cloud
ZDX Hosted Monitoring
监控组件
| 组件 | 说明 | 位置 |
|---|---|---|
| Web Probes | 从用户设备到目标应用的 Web 性能测试 | 用户设备端 |
| Cloud Path Probes | 网络路径分析(延迟、丢包、跳数) | 用户设备到云端 |
| Endpoint Agents | 端点设备健康监控 | 用户设备上 |
| Hosted Probes | 从 Zscaler 数据中心到目标的监控 | Zscaler 云端 |
核心功能模块
3.1 ZDX Score(数字体验评分)
ZDX Score 是 Zscaler 独创的用户体验评分体系,综合衡量用户、应用和位置的性能表现。
评分体系
| 评分范围 | 状态 | 说明 |
|---|---|---|
| 80 - 100 | 优秀 | 用户体验良好 |
| 60 - 79 | 良好 | 存在轻微问题 |
| 40 - 59 | 一般 | 需要关注 |
| 0 - 39 | 差 | 需要立即处理 |
建议为关键业务应用建立 ZDX Score 基线,当评分低于基线时触发告警。
打分计算方法
ZDX Score 为 1-100 分(1 = 最差,100 = 最佳),但不同类型的应用,计算方式完全不同:
一、SaaS / Web 应用 — 基于 Page Fetch Time
这是最常见的应用类型,评分核心指标是 Page Fetch Time(页面获取时间)。
| 机制 | 说明 |
|---|---|
| 区域基线(Regional Baseline) | 每天为每个应用按地区计算 Page Fetch Time 基线(至少 1 台活跃设备的地区) |
| 加权平均对比 | 用户的 Page Fetch Time 与基线的加权平均值对比,偏离越大分数越低 |
| 取最低值策略 | 用户级和应用级都取"最低值"——意味着最差的那次体验决定了评分 |
Zscaler 认为用户不会记住"大多数时候都很快",他们只会记住"那次特别慢、特别卡"的经历。所以用最低分来反映真实用户体验。
二、网络应用 — 基于 End-to-End Latency
对于只配置了 Cloud Path Probe(无 Web Probe)的网络类应用:
| 核心指标 | 说明 |
|---|---|
| End-to-End Latency | 取代 Page Fetch Time,成为评分主驱动力 |
| 辅助指标 | Packet Loss(丢包率)、Hop Count(跳数) |
计算逻辑与 SaaS 应用类似:与区域基线对比,取最低值。
三、语音/视频通话质量(Teams / Zoom)— 基于 MOS
实时通信应用的评分方式完全不同。
方式 A:有 MOS 数据时 — 使用 Mean Opinion Score (MOS),基于 ITU-T G.107 传输评分算法,从延迟、抖动、丢包三个指标推导而来:
| MOS 范围 | 质量等级 | 用户体验 |
|---|---|---|
| 4.3 - 5.0 | Excellent | 优秀,无感知问题 |
| 4.0 - 4.3 | Good | 良好 |
| 3.6 - 4.0 | Fair | 一般,偶有卡顿 |
| 0 - 3.6 | Poor | 差,明显影响通话 |
方式 B:无 MOS 数据时 — 取延迟、抖动、丢包三个指标各自与阈值对比的评分,以最低的那个为准(木桶效应)。
四、Smooth ZDX Score(平滑评分)
Zscaler 还会计算一个 Smooth ZDX Score,利用历史数据做平滑处理(类似指数移动平均),减少短期波动,提供更稳定的趋势参考。
五、设备体验评分(Microsoft Endpoint Analytics 集成)
| 指标 | 说明 |
|---|---|
| Startup Performance | 从开机到可用的加权平均时间 |
| App Reliability | 应用崩溃率和挂起率 |
评分范围同样为 0-100。
评分方法总结
| 应用类型 | 评分核心驱动 | 对比基准 | 聚合策略 |
|---|---|---|---|
| SaaS/Web 应用 | Page Fetch Time | 区域基线(每日更新) | 取最低值再平均 |
| 网络应用 | End-to-End Latency | 区域基线 | 取最低值再平均 |
| 通话质量(有 MOS) | MOS 评分(1-5) | ITU-T G.107 标准 | — |
| 通话质量(无 MOS) | 延迟/抖动/丢包最低分 | 预设阈值 | 木桶效应 |
| 设备体验 | 启动时间 + 应用稳定性 | 微软基线 | 加权平均 |
Zscaler 没有公开每个指标的具体权重数值(例如"Page Fetch Time 占 60%"),只公开了上述计算逻辑。
3.2 Web Probe(Web 探针)
Web Probe 从用户设备发送 HTTP/HTTPS 请求到目标应用,测量:
- 可用性 (Availability) — 应用可达性
- 页面获取时间 (Page Fetch Time) — 页面加载性能
- DNS 解析时间 — DNS 查询延迟
- TCP 连接时间 — 建立连接的时间
- TLS 握手时间 — 安全连接建立时间
- 首字节时间 (TTFB) — 首字节响应时间
- 内容下载时间 — 实际内容下载时间
Page Fetch Time 指标详解
Page Fetch Time 不是一个单一指标,而是 Web Probe 测量的从发请求到拿到完整页面的全过程耗时,由 5 个子阶段组成:
| 阶段 | 指标 | 指的是什么 | 慢了可能的原因 |
|---|---|---|---|
| DNS Resolution | DNS 解析时间 | 把域名翻译成 IP 地址 | DNS 服务器响应慢、DNS 配置不当 |
| TCP Connection | TCP 连接时间 | 建立 TCP 连接(三次握手) | 网络延迟高、防火墙拦截、路由问题 |
| TLS Handshake | TLS 握手时间 | 协商加密参数(HTTPS 必须) | 加密套件协商慢、证书链问题 |
| TTFB | 首字节时间 | 请求发出后等服务器返回第一个字节 | 服务器端问题(应用性能差、后端慢) |
| Content Download | 内容下载时间 | 下载 HTML、JS、CSS、图片等 | 带宽不足、页面资源太大、CDN 未命中 |
Page Fetch Time (Total) = 以上 5 个阶段的时间之和
Page Fetch Time 不只是"网络快不快"的指标,还包含服务器端性能(TTFB)。哪个阶段慢了,就知道问题出在网络还是应用服务器。
Web Probe 适用场景
- SaaS 应用监控(Microsoft 365、Salesforce、Box 等)
- 内部 Web 应用监控
- 公共服务可用性监控
3.3 Cloud Path Probe(云路径探针)
Cloud Path Probe 提供网络路径的深度分析:
| 指标 | 说明 |
|---|---|
| End-to-End Latency | 端到端延迟 |
| Packet Loss | 丢包率 |
| Hop Count | 跳数 |
| Bandwidth | 带宽测量 |
| Jitter | 抖动 |
| DNS Resolution | DNS 解析 |
探针运行频率
- 标准 ZDX 订阅:每 15 分钟运行一次
- 高级 ZDX 订阅:每 5 分钟运行一次
Cloud Path 视图
- 拓扑视图:图形化显示网络路径
- 命令行视图:详细显示每个跳点的跳点方向(上行/下行)、区域和地理位置、丢包率和丢包数、延迟指标
对于 GRE 隧道,Hop View 显示到路由路径的底层跳点,以提供更准确的延迟和丢包指标。
3.4 Endpoint Monitoring(端点监控)
端点监控持续监控和可视化端点设备事件和系统健康指标:
监控指标
| 类别 | 指标 |
|---|---|
| CPU | CPU 使用率 |
| 内存 | 内存使用情况 |
| 磁盘 | 磁盘 I/O 和使用率 |
| Wi-Fi | 信号强度、连接质量 |
| 电池 | 电量状态(笔记本) |
| 进程 | 进程级资源消耗 |
| 网络 | 网络适配器状态 |
集成能力
- 与身份提供商集成,为端点监控提供身份上下文
- 支持按用户名搜索和深入分析
3.5 Real User Monitoring (RUM)
Real User Monitoring (RUM) 捕获真实用户通过浏览器(Windows 和 macOS 设备)与应用交互的性能指标,为应用的数字体验提供全面视图。与 Web Probe 的定时主动探测不同,RUM 是被动采集真实用户流量,能捕获到探针探测不到的间歇性问题。
RUM vs Web Probe 对比
| 维度 | Web Probe | RUM |
|---|---|---|
| 方式 | 定时主动探测(每 5/15 分钟) | 被动采集真实用户流量 |
| 数据来源 | 模拟请求 | 真实用户浏览器会话 |
| 发现能力 | 发现持续性问题 | 发现间歇性、用户特定问题 |
| 指标深度 | Page Fetch Time 及子阶段 | Page Fetch Time + Page Loading Time + Core Web Vitals |
RUM 提供的指标
| 指标类别 | 具体指标 | 说明 |
|---|---|---|
| Page Fetch Time | 页面获取时间 | 从发请求到拿到完整页面的全过程耗时(与 Web Probe 一致) |
| Page Loading Time | 页面加载时间 | 页面完全渲染并可交互的总时间,包含资源加载、渲染等 |
| Core Web Vitals | Largest Contentful Paint (LCP) | 最大内容绘制 — 页面主要内容对用户可见的时间 |
Core Web Vitals 是 Google 定义的一组用户体验核心指标。ZDX RUM 当前主要集成 LCP(Largest Contentful Paint),衡量用户从发起页面加载到最大内容元素(图片、文本块或视频)渲染完成的时间。
| LCP 时间 | 评级 |
|---|---|
| ≤ 2.5 秒 | 良好 |
| 2.5 - 4.0 秒 | 需要改进 |
| > 4.0 秒 | 差 |
RUM 前置条件
- 订阅级别:需要 ZDX Advanced 或更高版本(Standard 不支持 RUM)
- 角色权限:ZDX 角色需具备配置应用的权限和查看用户信息和性能仪表盘的权限
- 版本兼容性:Zscaler Client Connector 和 ZDX Module 需为适当版本
- 浏览器扩展:设备浏览器必须安装最新版 RUM 浏览器扩展
- Chrome:Chrome Web Store - Zscaler RUM
- Microsoft Edge:Edge Add-ons - Zscaler RUM
- 进程白名单:必须在设备上将
ZUpmApplication.exe加入白名单
配置 RUM 的步骤
查看 RUM 数据的位置
| 位置 | 说明 |
|---|---|
| Applications Overview | 应用概览,查看所有应用的 RUM 状态 |
| Application Details | 应用详情,查看 Page Loading Time、TTFB 等详细指标 |
| Users Overview | 用户概览,查看哪些用户有 RUM 数据 |
| User Details | 用户详情,深入分析单个用户的浏览器性能 |
| Performance Dashboard | 性能仪表盘,RUM 启用后显示 Page Views 和 Load Time 趋势图 |
RUM 告警
您可以为 RUM 配置告警规则(Alert Rule),当 RUM 指标异常时通过 Email、Webhook、Slack 等渠道发送通知。
3.6 Wi-Fi 监控
Wi-Fi 监控是 ZDX 的核心功能之一,通过利用组织内现有用户和设备的 Wi-Fi 数据来监控设备性能。随着混合办公模式普及,员工 Wi-Fi 问题(无论是在办公室还是远程)已成为影响用户体验的常见原因。ZDX Wi-Fi Dashboard 提供了全面的无线网络可见性,帮助 IT 团队在问题影响用户生产力之前主动识别并解决。
官方文档:Monitoring the Wi-Fi Dashboard
博客:Optimize Digital Experiences with Our Advanced Wi-Fi Dashboard
2025 更新:2025 ZDX Recap: Elevating IT Operations
前置条件
1. 订阅级别要求(License)
Wi-Fi Dashboard 对 License 有严格要求,并非所有 ZDX 订阅版本都支持:
| ZDX 版本 | Wi-Fi Dashboard 支持 | 说明 |
|---|---|---|
| Standard | ✘ 不支持 | Wi-Fi 功能在 Analytics 中完全不可见 |
| Microsoft 365 | ✘ 不支持 | 即便包含 M365 通话质量监控,Wi-Fi 仍不可用 |
| Advanced | ✔ 支持 | Wi-Fi Dashboard 及全部功能可用 |
| Advanced Plus | ✔ 支持 | Wi-Fi Dashboard 及全部功能可用 |
必须拥有 ZDX Advanced 或 Advanced Plus 订阅才能使用 Wi-Fi Dashboard。
ZDX Standard 版本随 ZIA/ZPA Business Edition 及以上版本免费附带,但 Wi-Fi 监控不在 Standard 的功能范围内,需要单独升级到 Advanced。
2. ZDX 角色权限 — 你的 ZDX 角色需要具备查看 Wi-Fi Dashboard 的权限级别。
3. Zscaler Client Connector — 用户设备上必须安装并运行 Zscaler Client Connector(内含 ZDX Module),ZDX Module 需为支持 Wi-Fi 数据采集的适当版本。
4. 端侧隐私设置(关键!)
某些操作系统(特别是 macOS 和 Windows 11)的最新更新默认不启用 Zscaler Client Connector 的隐私设置。
当 "Collection Location Info for ZDX" 未启用时,SSID、BSSID 等 Wi-Fi 详细信息不会被采集,Wi-Fi Dashboard 将无法显示完整数据。需要在 Client Connector 中手动启用。
Wi-Fi Dashboard 概览
Map View(地图视图)
按地理位置展示 AP 分布和信号覆盖
List View(列表视图)
按性能排序的 AP 及设备列表(2025 新增)
AP 详情视图(点击单个位置)
核心监控指标
| 指标 | 说明 | 正常范围 | 异常阈值 |
|---|---|---|---|
| Signal Strength | Wi-Fi 信号强度(RSSI),以百分比或 dBm 表示 | > -65 dBm(~60%+) | < -80 dBm(<40%) |
| ZDX Score | 连接到该 AP 的设备的综合体验评分 | 80-100 | < 60 |
| Wi-Fi Type | 设备连接的 Wi-Fi 标准和频段(如 802.11ax/ac/n,2.4GHz/5GHz) | 5GHz / Wi-Fi 6 | 2.4GHz |
| SSID | 设备连接的无线网络名称 | — | — |
| Latency | 设备到 AP/BSSID 的延迟 | < 10ms | > 50ms |
| Jitter | 延迟的波动程度 | < 10ms | > 30ms |
| Adapter Type | 设备的 Wi-Fi 网卡硬件信息 | — | — |
| BSSID | 基本服务集标识符,标识具体的 AP | — | — |
| Score Distribution | 某位置所有设备 ZDX Score 的分布柱状图 | 集中在 80+ | 分散/大量低分 |
Wi-Fi Dashboard 视图
1. Map View(地图视图) — 地图视图提供按地理位置分布的 AP 可视化:显示各办公室/位置的 Wi-Fi AP 分布;通过颜色编码标识各位置的 Wi-Fi 健康状况;帮助快速识别信号覆盖盲区和问题热点区域。
2. List View(列表视图) — 2025 年新增的增强视图:提供所有 AP 及其连接设备的全面列表;支持按最佳/最差性能排序和过滤;显示每个 AP 的 ZDX Score;适合快速定位性能最差的 AP 并优先处理。
使用 List View 按 ZDX Score 从低到高排序,快速找到体验最差的 Wi-Fi 热点,优先排查。
SSID 洞察与 AP 详情
- SSID Insights:查看连接到特定 SSID 的设备数量、识别高流量节点、对比不同 SSID 的性能表现
- AP 详情下钻:点击单个 AP 可查看连接诊断(Latency、Jitter)、设备列表、信号强度趋势、适配器信息
用户级 Wi-Fi 排障
在用户详情页面中,Wi-Fi 数据与 Cloud Path 数据联动。如果 Page Fetch Time、Server Response Time、DNS Resolution Time 全部变慢,可能是 Wi-Fi 问题。查看 Cloud Path 中设备到 Wi-Fi 路由器之间延迟高可定位本地 Wi-Fi 问题,悬停设备可查看连接的 Wi-Fi 频段(2.4GHz vs 5GHz)和 BSSID。
症状:用户在家办公时报告 Salesforce 访问缓慢
排查过程:
- 在 ZDX 中搜索该用户,选择问题时间段
- ZDX Automated Root Cause Analysis 提示可能存在本地网络问题
- Page Fetch Time、Server Response Time、DNS Resolution Time 全部偏高
- 查看 Cloud Path:设备到 Wi-Fi 路由器之间延迟极高
- 悬停设备详情:发现用户连接到 2.4GHz 频段(速度较慢)
- Wi-Fi 信号强度仅 62%,且有一段时间完全不可用
根因:用户距离 Wi-Fi 路由器较远,且连接了速度更慢的 2.4GHz 频段
解决:建议用户靠近路由器,或切换到 5GHz 频段
Self Service 用户通知
Zscaler Client Connector 内置轻量级 AI 引擎,可以在端侧主动通知用户 Wi-Fi 问题,无需等待 IT 团队发现:
| 通知类型 | 示例消息 |
|---|---|
| 弱 Wi-Fi 信号 | "The current Wi-Fi network <home Wi-Fi> signal is weak." |
| AP 延迟高 | "Latency to the access point <BSSID> is high." |
| 信号强度低 | "Signal strength at <value> is low." |
Incidents Dashboard 中的 Wi-Fi 事件
Wi-Fi 是 ZDX Incidents Dashboard 的 7 种事件区域类型之一:
当 ZDX 检测到 Wi-Fi 区域异常时,会自动生成 Wi-Fi 事件,包含受影响用户(按地理位置分布)、历史趋势、关联指标。
2025 年增强功能
| 新功能 | 说明 |
|---|---|
| Wi-Fi Performance by Locations List View | 新增列表视图,提供所有 AP 及其连接设备的全面列表,支持按最佳/最差排序 |
| 增强 Wi-Fi 遥测指标 | ZDX Module 2025 版本提供更丰富的 Wi-Fi 遥测数据 |
| Wi-Fi 事件类型细化 | 更精确的 Wi-Fi 事件分类和根因分析 |
Wi-Fi 问题常见根因
| 根因类别 | 具体原因 | ZDX 中的表现 |
|---|---|---|
| 信号弱 | 距离 AP 太远、穿墙多 | Signal Strength 低,延迟高 |
| 频段问题 | 连接 2.4GHz 而非 5GHz | Wi-Fi Type 显示 2.4GHz,速度慢 |
| 适配器问题 | 驱动过旧、硬件兼容性差 | Adapter Type 异常,频繁断连 |
| AP 拥塞 | 单个 AP 连接设备过多 | SSID Insights 显示高设备数,延迟和抖动升高 |
| 漫游问题 | 设备未正确切换到更近的 AP | 信号强度波动大,延迟不稳定 |
| 干扰 | 同信道其他 Wi-Fi 网络或设备干扰 | 信道使用率高,信号质量差(SNR 低) |
| AP 故障 | AP 硬件故障或固件问题 | AP 下所有设备评分下降 |
- Wi-Fi 数据由 Zscaler Client Connector 的 ZDX Module 采集,需确保设备安装了最新版本
- 某些操作系统更新(如 Windows 11/ macOS)默认不启用 Client Connector 的位置信息收集,需手动开启,否则 SSID/BSSID 等数据不会被采集
- Wi-Fi Dashboard 仅在 ZDX Advanced 及以上版本中可用(Standard 和 M365 版本不支持)
3.7 Call Quality Monitoring(通话质量监控)
ZDX 支持对以下 UCaaS 平台进行通话质量监控:
| 平台 | 支持状态 |
|---|---|
| Microsoft Teams | ✔ 支持 |
| Zoom | ✔ 支持 |
| Webex | ✔ 支持 |
监控指标
- MOS 评分(Mean Opinion Score)
- 音频/视频丢包
- 抖动
- 延迟
- 带宽利用率
3.8 ZIA Private Service Edge 监控
监控 Zscaler Private Service Edge 部署:
- 总体流量概览
- 各数据中心流量
- PSE 实例健康状态
- 吞吐量和延迟
配置指南
快速入门流程
配置 Web Probe
基本配置步骤
| 参数 | 说明 | 建议值 |
|---|---|---|
| Probe Frequency | 探测频率 | 15分钟(标准)/ 5分钟(高级) |
| Timeout | 超时时间 | 30秒 |
| Content Match | 内容匹配验证 | 可选 |
| HTTP Method | 请求方法 | GET/POST |
通过 Zscaler Private Access (ZPA) 配置内部应用的 Web Probe 时,仅对使用该应用的用户、用户组和部门进行探测。
配置 Cloud Path Probe
| 参数 | 说明 |
|---|---|
| Probe Type | Forward / Reverse |
| Destination | 目标 IP 或主机 |
| Port | 目标端口 |
| Protocol | TCP / UDP |
| Probe Interval | 探测间隔 |
- Forward Cloud Path: 从用户设备到目标的探测
- Reverse Cloud Path: 从目标到用户设备的反向探测
- ZDX Autosense: 对于 Call Quality Monitoring (CQM) 应用自动启用,自动发现与 CQM 应用关联的 Cloud Path Host
配置告警规则
| 条件类型 | 说明 |
|---|---|
| ZDX Score | 评分低于阈值 |
| Availability | 可用性低于阈值 |
| Latency | 延迟高于阈值 |
| Packet Loss | 丢包率高于阈值 |
| Device Health | 设备健康问题 |
告警动作:Webhook、Email、ServiceNow、Slack、PagerDuty
ZDX 支持动态告警功能(Dynamic Alerting),根据基线自动调整告警阈值。
配置 Webhook
| 参数 | 说明 |
|---|---|
| Name | Webhook 名称 |
| Status | 启用/禁用 |
| URL | 目标 URL |
| Authentication | 认证方式(Bearer Token, Basic Auth, etc.) |
| Headers | 自定义请求头 |
支持的平台
- ServiceNow (Incident Management & Event Management)
- Microsoft Teams
- Slack
- PagerDuty
- OpsGenie
- Splunk
- Generic HTTP/HTTPS
ServiceNow 集成配置
前置要求:在 ServiceNow 创建服务用户、配置 OAuth 2.0 API 端点、为用户分配 ZDX 角色。
配置步骤:
- 在 ServiceNow 创建用户(IM 工作流用户、Deep Tracing 用户、EM 管理员)
- 在 ZDX 配置 Webhook
Incident Management URL: https://<your-instance-ID>.service-now.com/api/x_zsca2_zdx_manage/zdx/create_incident Event Management URL: https://<your-instance-ID>.service-now.com/api/x_zsca2_zdx_manage/zdx/create_event
监控指标详解
Performance Dashboard(性能仪表盘)
ZDX Score 图表显示所选时间段内的 ZDX Score 趋势,显示整体评分线条,分数分为三个等级区域。
Web Probe 指标
Availability(可用性)
| 指标 | 说明 |
|---|---|
| Month To Date (MTD) | 从月初到当前日期的平均可用性,与上月同期对比 |
| Past 30 Days | 过去30天的平均可用性,与前30天对比 |
| Time range | 所选时间范围内的平均可用性 |
Page Fetch Time(页面获取时间)
| 指标 | 说明 |
|---|---|
| DNS Resolution | DNS 解析时间 |
| TCP Connection | TCP 连接建立时间 |
| TLS Handshake | TLS 握手时间 |
| TTFB | Time To First Byte,首字节时间 |
| Content Download | 内容下载时间 |
| Total | 总页面加载时间 |
Cloud Path Probe 指标
| 指标 | 说明 |
|---|---|
| Leg Latency | 各段延迟 |
| Network Latency | 网络延迟 |
| Server Response Time | 服务器响应时间 |
| Total Latency | 总延迟 |
Device Health Dashboard(设备健康仪表盘)
| 指标 | 正常范围 | 告警阈值建议 |
|---|---|---|
| CPU 使用率 | < 70% | > 85% |
| 内存使用率 | < 75% | > 90% |
| 磁盘使用率 | < 80% | > 95% |
| Wi-Fi 信号强度 | > -65 dBm | < -80 dBm |
| 电池电量 | > 20% | < 10% |
Network Intelligence Dashboard(网络智能仪表盘)
ZDX 运行 Cloud Path 探针收集网络指标,建立网络延迟基线并检测异常。
| 指标 | 说明 |
|---|---|
| Network Latency | 网络延迟 |
| Packet Loss | 丢包率 |
| Hop Count | 跳数 |
| Probe Count | 探针数量 |
| Anomaly Events | 异常事件 |
Incidents Dashboard(事件仪表盘)
事件仪表盘以 7 种区域类型显示事件:
| 区域类型 | 触发条件 |
|---|---|
| Device | 设备健康问题 |
| Wi-Fi | Wi-Fi 连接问题 |
| Last Mile ISP | 最后一公里 ISP 问题 |
| Intermediate ISP | 中间 ISP 问题(最少10用户/ASN) |
| ZIA Public Service Edge | ZIA 服务边缘问题 |
| ZPA | ZPA 连接问题 |
| Application | 应用性能问题 |
事件相关指标
| 指标 | 说明 |
|---|---|
| ZDX Score for Impacted Users | 受影响用户的 ZDX 评分 |
| ISP Internal/Peering Latency | ISP 内部/对等延迟 |
| End-to-End Latency | 端到端延迟 |
| Leg Latency | 各段延迟 |
| Packet Loss | 丢包率 |
| DNS Resolution Time | DNS 解析时间 |
| First Hop Latency | 首跳延迟 |
| ZIA Transactions | ZIA 事务数 |
| ZIA Connectivity Errors | ZIA 连接错误 |
日常网络排障实战
排障流程概览
场景 1:用户报告应用访问慢
排查步骤
Step 1: 检查 ZDX Score — 登录 ZDX Admin Portal,查看 Performance Dashboard,定位评分下降的用户或应用。
Step 2: 检查应用可用性 — 查看 Web Probe 可用性指标,确认是否有服务中断。
Step 3: 分析页面加载时间
- 如果 DNS Resolution 高 → 检查 DNS 配置
- 如果 TCP Connection 高 → 检查网络连接
- 如果 TLS Handshake 高 → 检查证书/延迟
- 如果 TTFB 高 → 检查服务器性能
- 如果 Content Download 高 → 检查带宽/内容大小
Step 4: 检查 Cloud Path — 查看端到端延迟,分析各段延迟分布,检查是否有丢包。
症状:用户报告 Microsoft 365 访问缓慢
排查过程:
- 检查 ZDX Score:发现相关用户评分从 85 下降到 55
- 检查 Web Probe:Page Fetch Time 从 500ms 上升到 3000ms
- 分析各指标:DNS Resolution 时间增加 2000ms
- 根因:DNS 服务器响应缓慢
- 解决:配置备用 DNS 服务器
场景 2:视频会议质量差
Step 1: 检查通话质量指标 — 登录 ZDX Admin Portal,选择 UCaaS Monitoring,查看 Microsoft Teams/Zoom 通话质量。
Step 2: 分析 MOS 评分
| MOS 评分 | 质量等级 | 用户感知 |
|---|---|---|
| 4.3-5.0 | 优秀 | 通话清晰 |
| 3.5-4.3 | 良好 | 偶尔有轻微问题 |
| 3.0-3.5 | 一般 | 有明显延迟感 |
| < 3.0 | 差 | 通话困难 |
Step 3: 检查网络指标 — 延迟是否 > 150ms、丢包率是否 > 2%、抖动是否 > 30ms
Step 4: 检查设备端点 — CPU 使用率是否过高、网络适配器是否有问题、Wi-Fi 信号强度是否良好
- 延迟 < 100ms 为最佳
- 丢包率 < 1% 为可接受
- 建议使用有线网络代替 Wi-Fi
场景 3:VPN 连接问题
Step 1: 检查 ZIA/ZPA 状态 — 查看 ZIA Public Service Edge Dashboard,检查 PSE 健康状态,验证连接数是否超限。
Step 2: 分析 Cloud Path — 检查到 PSE 的延迟,分析跳点信息,检查是否有丢包。
Step 3: 检查 First/Second Hop Latency — First Hop 延迟高 → 客户端到本地网络问题;Second Hop 延迟高 → Zscaler 云端处理问题。
Step 4: 验证配置 — 检查转发配置,验证路由规则,确认端口/协议设置。
场景 4:Wi-Fi 连接不稳定
Step 1: 检查 Wi-Fi Dashboard — 查看 Wi-Fi 信号强度趋势,分析信道使用率,检查干扰事件。
Step 2: 分析连接指标
| 指标 | 正常范围 | 问题表现 |
|---|---|---|
| RSSI | > -65 dBm | < -80 dBm 表示信号弱 |
| SNR | > 25 dB | < 10 dB 表示噪声大 |
| Channel Utilization | < 50% | > 80% 表示拥塞 |
Step 3: 检查漫游事件 — 是否频繁漫游、漫游是否有延迟、AP 之间切换是否平滑。
- 距离 AP 太远
- 同信道干扰
- 信道拥塞
- 固件问题
使用 ZDX Copilot 辅助排障
ZDX Copilot 可以帮助您快速获取诊断信息:
示例问题: "Can you compile Cloud Path data for an impacted user? I will be using this data to contact the ISP." ZDX Copilot 响应: 编译受影响用户的 Cloud Path 数据
| 场景类型 | 示例问题 |
|---|---|
| 数据分析 | "查找 ZDX Score 低于 50 的受影响用户" |
| 趋势分析 | "过去一周的性能趋势如何?" |
| 根因分析 | "导致 Microsoft 365 慢的原因是什么?" |
| 配置指导 | "如何配置 Zoom Call Quality?" |
| 优化建议 | "有什么最佳实践可以改善延迟?" |
测试与验证方法
验证 ZDX Agent 安装
检查步骤
- 确认 Agent 状态
# Windows Get-Service | Where-Object {$_.Name -like "*zscaler*"} - 验证连接 — 检查 ZDX Dashboard 中设备状态,确认 Last Seen 时间
- 测试数据上报 — 登录 ZDX Admin Portal,检查 Device Health Dashboard,确认指标正常显示
验证 Probe 配置
测试 Web Probe
- 手动触发探测 — 在 Configuration 中选择应用,点击 Test Probe,检查返回结果
- 验证指标 — Availability = 100%?Page Fetch Time 是否合理?DNS/TCP/TLS 时间是否正常?
- 检查告警触发 — 人为降低阈值,验证告警是否发送
测试 Cloud Path Probe
- 查看探针历史 — Configuration > Probes > 选择探针 > View History
- 分析 Hop View — 检查每个跳点的延迟,识别异常跳点
- 对比基线 — 当前值 vs 基线,是否有显著偏差
验证告警配置
测试 Webhook
- 发送测试告警 — 在 Alert Rules 中点击 Test,验证是否到达目标系统
- 检查日志 — Webhook 发送日志,确认无认证错误
验证 ServiceNow 集成
- 创建测试告警 — 触发 ZDX 告警,检查 ServiceNow 工单创建
- 验证字段映射 — 告警类型正确、受影响用户信息完整、严重级别准确
端到端测试流程
基线建立
创建性能基线
- 选择基准时间段 — 选择正常运行期间的数据,建议至少 7 天
- 设置基线参数 — Administration > Settings > Baselines
- 配置基线阈值 — ZDX Score 上限/下限、延迟阈值、丢包率阈值
基线类型
| 类型 | 说明 | 适用场景 |
|---|---|---|
| Static Baseline | 固定阈值 | 简单监控 |
| Dynamic Baseline | 基于历史的动态阈值 | 复杂环境 |
| Time-based Baseline | 不同时段不同阈值 | 有明显峰谷的业务 |
告警与集成配置
告警规则配置详解
告警类型
| 类型 | 说明 |
|---|---|
| ZDX Score Alert | ZDX 评分低于阈值 |
| Availability Alert | 应用不可用 |
| Latency Alert | 延迟超标 |
| Packet Loss Alert | 丢包超标 |
| Device Health Alert | 设备健康问题 |
| Wi-Fi Alert | Wi-Fi 连接问题 |
| ISP Alert | ISP 性能问题 |
告警条件配置
告警条件示例: - ZDX Score < 60 持续 10 分钟 - Availability < 95% 持续 5 分钟 - Latency > 200ms 持续 15 分钟 - Packet Loss > 2% 持续 5 分钟
告警动作
| 动作 | 说明 | 适用场景 |
|---|---|---|
| 邮件通知 | 常规通知 | |
| Webhook | HTTP POST | 集成 ITSM |
| Slack | Slack 消息 | 团队通知 |
| ServiceNow | 创建工单 | 企业 ITSM |
| PagerDuty | 告警升级 | 紧急响应 |
ServiceNow 深度集成
Incident Management (IM) 集成
配置要点:创建 ServiceNow 用户并分配角色、配置 OAuth 2.0 认证、在 ZDX 配置 Webhook。
Webhook URL: https://<instance>.service-now.com/api/x_zsca2_zdx_manage/zdx/create_incident
Event Management (ITOM) 集成
前置条件:启用 ITOM 模块、安装 EM 插件、配置事件映射规则。
Webhook URL: https://<instance>.service-now.com/api/x_zsca2_zdx_manage/zdx/create_event
ZDX Copilot 智能助手
什么是 ZDX Copilot
ZDX Copilot 是由 AI/ML 驱动的交互式对话助手,辅助 ZDX 功能使用。通过自然语言处理技术,帮助管理员快速完成数据查询、智能排障、数据解读、配置辅助和工作流自动化。
主要功能
| 功能 | 说明 |
|---|---|
| 数据分析 | 提供相关洞察和图表可视化 |
| 智能压缩 | 将复杂数据集压缩为智能摘要 |
| 根因分析 | 发现用户体验问题的根本原因 |
| 故障排除建议 | 提供修复建议 |
Copilot vs 传统管理
| 维度 | 传统管理方式 | ZDX Copilot |
|---|---|---|
| 查询数据 | 手动筛选 Dashboard | 自然语言提问 |
| 排障 | 逐层排查日志 | AI 引导式排障 |
| 学习曲线 | 需要熟悉 UI | 用日常语言即可 |
| 响应速度 | 手动操作需要时间 | 即时回答 |
| 一致性 | 依赖个人经验 | 标准化 AI 分析 |
使用场景
| 场景 | 示例问题 |
|---|---|
| 数据分析 | "查找 ZDX Score 低于 50 的受影响用户" |
| 故障排除 | "导致 Microsoft 365 慢的原因是什么?" |
| 配置指导 | "如何配置 Zoom Call Quality?" |
| 学习 | "ZDX Score 是如何计算的?" |
| 优化 | "有什么最佳实践可以改善延迟?" |
Copilot 角色权限
Copilot 的功能权限继承管理员账号的角色权限:
| 管理员角色 | Copilot 可执行操作 |
|---|---|
| Full Admin | 完整功能:查询、配置、执行诊断、生成报告 |
| Operations Admin | 查询、排障指导、发起诊断 |
| Helpdesk Admin | 有限查询、排障指导 |
| Read-Only Admin | 只读查询 |
ZDX Copilot 保留提示和响应作为会话历史的一部分,滚动保留 14 天。
常见问题解答
部署相关
A: 对于 Endpoint Monitoring,需要安装 ZDX Agent。Web Probe 和 Cloud Path Probe 可以通过 Zscaler Client Connector 或 Browser Extension 实现。
A: Windows、macOS、Linux 桌面端,以及 iOS 和 Android 移动端。
A: 配置完成后,需要在 ZDX Admin Portal 中点击 "Activate Changes" 才能使配置生效。
监控相关
A: ZDX Score 计算方式因应用类型而异。SaaS/Web 应用以 Page Fetch Time 为核心驱动,与区域基线对比评分;网络应用以 End-to-End Latency 为主;通话质量应用使用 MOS 评分或延迟/抖动/丢包的最低阈值评分;设备体验则通过 Microsoft Endpoint Analytics 集成评估启动性能和应用稳定性。
A: 标准订阅为 15 分钟,高级订阅为 5 分钟。
A: 可以,通过 ZPA 集成的内部应用可以使用 Web Probe 和 Cloud Path Probe 进行监控。
RUM 相关
A: RUM 仅在 ZDX Advanced(高级版)及以上版本中可用。ZDX Standard(标准版)不支持 RUM 功能。此外还需要安装 RUM 浏览器扩展(Chrome 或 Edge),并将 ZUpmApplication.exe 加入设备白名单。
A: Web Probe 是定时主动探测(每 5/15 分钟发一次模拟请求),而 RUM 是被动采集真实用户通过浏览器访问应用时的实际性能数据。RUM 能发现 Web Probe 捕获不到的间歇性问题和用户特定问题,还额外提供 Core Web Vitals(如 LCP)等浏览器端指标。
A: 目前支持 Google Chrome 和 Microsoft Edge,需要安装对应的浏览器扩展。可以通过 MDM 工具(如 Microsoft Intune)批量部署。
A: 推荐使用移动设备管理(MDM)解决方案(如 Microsoft Intune)将浏览器扩展推送到所有终端用户的设备上。
A: RUM 数据可以在 Applications Overview、Application Details、Users Overview、User Details 和 Performance Dashboard 这 5 个位置查看。RUM 启用后,Performance Dashboard 会显示 Page Views 和 Load Time 趋势图。
告警相关
A: Wi-Fi Dashboard 仅在 ZDX Advanced 和 Advanced Plus 版本中可用。ZDX Standard(随 ZIA/ZPA Business Edition 免费附带)和 ZDX M365 版本均不支持 Wi-Fi Dashboard。此外还需要确保:用户设备安装了适当版本的 Zscaler Client Connector(含 ZDX Module);macOS/Windows 11 用户需手动启用 "Collection Location Info for ZDX" 隐私设置,否则 SSID/BSSID 数据不会被采集。
A: 使用 Dynamic Alerting 功能,ZDX 会根据历史基线自动调整告警阈值。
A: 可以,一个告警规则可以配置多个告警动作。
A: 配置聚合规则和抑制条件,例如"至少 5 个用户受影响才触发告警"。
集成相关
A: 主要支持 ServiceNow,也可以通过 Webhook 集成其他 ITSM 系统。
A: 检查 Webhook 日志,验证 URL、认证信息和载荷格式。
高级功能与资源
Deep Tracing
Deep Tracing 提供按需的精细化数据,用于深度分析问题。
- 需要详细的端到端数据
- 分析特定用户会话
- 排查偶发性问题
ZDX Autosense
ZDX Autosense 自动发现与 CQM 应用关联的 Cloud Path Host,简化配置。
功能级别对比
以下对比基于官方 Ranges & Limitations 页面整理(含 4 个版本:Standard、M365、Advanced、Advanced Plus)
| 功能 | Standard | M365 | Advanced | Advanced Plus |
|---|---|---|---|---|
| Web Probe | ✔ | ✔ | ✔ | ✔ |
| Cloud Path Probe | ✔ | ✔ | ✔ | ✔ |
| Endpoint Monitoring | ✔ | ✔ | ✔ | ✔ |
| Wi-Fi Dashboard | ✘ | ✘ | ✔ | ✔ |
| RUM | ✘ | ✘ | ✔ | ✔ |
| Deep Tracing | ✘ | ✔ | ✔ | ✔ |
| UCaaS Monitoring | ✘ | Teams only | ✔ | ✔ |
| Root Cause Analysis | ✘ | ✘ | ✔ | ✔ |
| Incidents Dashboard | ✘ | ✘ | ✘ | ✔ |
| Self Service | ✘ | ✘ | ✘ | ✔ |
| Copilot | ✘ | ✘ | ✘ | ✔ |
| Data Explorer Views | ✘ | ✘ | 30 | 100 |
| Device Health Dashboard | ✘ | ✘ | ✘ | ✔ |
| Device Events Reports | ✘ | ✘ | ✔ | ✔ |
| Active Probe Count | 6 | 13 | 30 | 100 |
| Probing Interval | 15 min | 5 min | 5 min | 5 min |
| Data Retention | 2 days | 14 days | 14 days | 14 days |
| DEM Snapshots | ✘ | ✘ | 90 days | 90 days |
| Alert Rules | Up to 3 | 10 | 25 | 100 |
| Dynamic Alerting | ✘ | ✘ | ✔ | ✔ |
| Webhooks | ✘ | 10 | 10 | 50 |
排障检查清单
相关资源链接
| 资源 | 链接 |
|---|---|
| ZDX 帮助门户 | https://help.zscaler.com/zdx |
| ZDX Admin Portal | https://admin.zdxcloud.net/ |
| Zscaler Academy | https://academy.zscalergov.com/ |
| Zscaler 产品主页 | https://www.zscaler.com/products-and-solutions/zscaler-digital-experience-zdx |
下一步建议
- 登录 ZDX Admin Portal 熟悉界面
- 配置一个测试应用进行实践
- 设置告警规则进行验证
- 使用 ZDX Copilot 体验 AI 辅助功能