4、数据 · 前端躬行记

&emsp;&emsp;数据包括性能指标、监控数据以及通过埋点得到的业务数据，而数据分析是体验优化的最后一环。 &emsp;&emsp;通过数据来量化当前的工作，从而证明工作是否高效，优化是否有效等问题。 &emsp;&emsp;量化的工作包括代码质量和业务数据。 ## 一、代码质量 &emsp;&emsp;代码质量的数据来源于思维导图中的性能指标和监控体系，包括 SLA、慢响应、前端错误、白屏和首屏时间等，以折线图的形式描述趋势变化。 &emsp;&emsp;因为我们组维护着大量的 Node 服务，所以指标中就会包含多个服务端数据。其中慢响应作为我们组的北极星指标。 &emsp;&emsp;所谓北极星指标，也叫第一关键指标，是指在产品的当前阶段与业务/战略相关的核心指标，一旦确立就像北极星一样指引团队向同一个方向前进。 **1）SLA** &emsp;&emsp;SLA 是指服务质量保证，参考的指标是异常状态码接口占比，即报 500、502、503 和 504 的接口。 &emsp;&emsp;其中 500 是代码错误，我们可以通过日志做排查。我们公司要求 SLA 的值要至少达到 5 个 9，即 99.999XX%。 &emsp;&emsp;如果要实现 6 个 9，按照我们公司每日的体量，每天只能允许 4 个以内的接口异常，维护成本比较大。 &emsp;&emsp;在 500 的错误码中，监控接口占据了 94% 左右，主要是因为上传的数据量太大导致报错，服务端限制 1M，最终在上传时就做大小限制。 &emsp;&emsp;还有一个占据了 6.2% 的错误接口主要是逻辑不够严密，边界条件没有处理好，修复后就降到了 0。 &emsp;&emsp;502 是转发的后端服务不存在，503 是没有转发或服务挂起，如果大量报，可以去找下运维。 &emsp;&emsp;504 是由后端服务出问题导致的超时引起的，例如数据库因为一条耗时的查询语句而被挂起。 **2）慢响应** &emsp;&emsp;慢响应是那些响应时间超过 2 秒的接口，在内部又将慢响应分为对外业务慢响应和对内后台慢响应，主要精力会放到对外业务上。 &emsp;&emsp;公司要求对外的慢响应占比要控制在万分之 2 以内，对内就比较松，只要不是很慢，可以操作就行。 &emsp;&emsp;造成慢响应的原因有一种是内部逻辑慢，另一种是受调用的接口影响而变慢。 &emsp;&emsp;第一种就可以我们自己解决，第二种就需要找协作组配合解决了。 &emsp;&emsp;有一个占了业务慢响应 67.4% 数量的监控列表接口，属于前者，在内部会查询一张 430W 的大表 6 次。 &emsp;&emsp;优化手段也很直接，就是减少查询次数，降到 1 次，慢响应次数一下子减少了 95%。 &emsp;&emsp;还有个举报接口，也属于前者，这张表也比较大，增加查询条件，触发索引，就立竿见影的把速度提上来了。 &emsp;&emsp;该慢响应次数一下子减少了 90%。这两个接口优化后，业务慢响应总占比从万分之 0.23 降低到万分之 0.1。 &emsp;&emsp;有一个内容审核的服务，由于架构缺陷导致优化成本很高，后面直接迁移后，后台慢响应占比从最高的万分之 98.13 降低到万分之 9.79。 **3）前端错误** &emsp;&emsp;前端错误就是通过监控系统搜集到的错误日志，分为脚本错误和通信异常。 &emsp;&emsp;脚本错误就是 JavaScript 的异常，例如用 undefined 当对象读取属性。 &emsp;&emsp;一个项目中的脚本错误在修复后，从高峰的 4073 降低至246，减少了 93.96%，进一步的保障项目质量。 &emsp;&emsp;虽然也能搜集图像请求的错误，但是却不能获取到错误原因，可能是用了代理或静态服务器偶尔的波动。 &emsp;&emsp;曾经在内容审核的页面，有段时间每日上报的图像错误最高达到 28827，之后动态的将图像质量降低 70%，错误上报量从降低至 1641。 &emsp;&emsp;通信异常其实也是 500、502 和 504 接口，之前的接口异常数量会包括静态资源以及内部的服务调用。 &emsp;&emsp;而此处的通信异常只包含从客户端发起的那部分接口，可以简单理解为其子集，不过有时候发现 502 和 504 的统计两边会有略微差异。 **4）白屏和首屏时间** &emsp;&emsp;白屏就是等待白屏的时间（FP），首屏更确切的说是首次有意义的内容加载时间（FMP）。 &emsp;&emsp;之前做过一套性能监控系统，白屏比较好计算，而首屏比较复杂，我们这边采用最简单的埋点的方式。 &emsp;&emsp;也就是手动的在某个阶段记录首屏时间，比较麻烦的是需要将线上页面逐个添加，不过也没多少个，所以还能接受这个笨办法。 &emsp;&emsp;以首屏为例，1 秒内占 72%左右，2 秒内占 19% 左右，若以 1.2 秒为边界的话，那优化的空间还是蛮大的。 &emsp;&emsp;初步排查后，发现主要慢在 DOM 解析，这让我蛮诧异的，经过 Chrome DevTools 的性能分析后，定位到了脚本尺寸上。 &emsp;&emsp;加载的脚本有点多，并且有一个 chunk-vendors.js 脚本还比较大，下载时间有点长。 &emsp;&emsp;因此在加载和运行时就会延长 DOM 的解析，影响白屏时间。 ## 二、业务数据 &emsp;&emsp;业务数据大多来源于分布在页面各处的埋点，经过数据分析后能得出各类报表，可以直观的查看业务是在增长还是下降亦或是持平。 &emsp;&emsp;在体验优化后，查看下相关数据的前后变化，就能知道此次优化是否成功了。 &emsp;&emsp;我们组的工作效率也是业务数据的一部分，但是这块比较难量化，不可能通过代码行数来判别，因此就想到了需求提测率和双月用户满意度评分。 **1）需求提测率** &emsp;&emsp;公司每双月会开一次需求讨论会，罗列本双月的需求。 &emsp;&emsp;我会以这份列表为基础，自己再开一份在线列表，记录所有需求的状态，并且会将不在此列表中的零碎需求也记录。 &emsp;&emsp;这份列表有 5 列，包括需求名称、线上BUG数、功能点数量、状态和备注。 &emsp;&emsp;其中状态又包括设计、提测、上线、延期等，可以一眼就能反映出需求所处的阶段。 &emsp;&emsp;线上 BUG 数就是字面意思，而功能点数量是 QA 提供的，他们在写测试用例时就会有这个数据。 &emsp;&emsp;不过没多久，线上 BUG 数和功能点数量没有维护起来，因为很多管理后台需求经常都不写用例，而活动比较常规，结构差不多也就不会细写。 &emsp;&emsp;线上 BUG 数因为每次都比较少的，偶尔会有几个，所以也就不怎么写了。 &emsp;&emsp;我的需求提测率是按提测状态来统计，而不是上线状态。 &emsp;&emsp;因为有时候是需要多端联调的，经常会碰到协作方因为种种原因无法配合联调或延期。 &emsp;&emsp;提测是指 QA 可以验收需求，所以要说明此处的联调问题并不是指我们写好界面，然后等服务端给接口。 &emsp;&emsp;而是比如我们完成管理后台的前后端功能，提供数据源，服务端没有时间处理这批数据，类似于这种场景。 **2）双月用户满意度评分** &emsp;&emsp;这是一张问卷调查，满分是 5 分，收集大家对我们组工作的反馈，对当前存在的问题可以做出针对性的优化。 &emsp;&emsp;需要填写所处部门，需求类型（后台或活动），是否达到预期，维度包括成果、沟通、响应等。 &emsp;&emsp;最后还有两个可选项，就是填写意见或建议，以及最想表扬的同学及其理由。 &emsp;&emsp;若是正面反馈，那自然很好；若是负面反馈，那就要总结。 &emsp;&emsp;在实际执行后，发现大家很少会提意见，每次的分值也差不多。 &emsp;&emsp;但是每次点名表扬的都比较多，大家对我们组的工作都比较满意。 **3）北极星指标** &emsp;&emsp;我们公司每个组都会有北极星指标（例如用户新增数、XX营收、主动聊天率等），了解各个组的指标变化其实就能了解公司业务的变化。 &emsp;&emsp;公司每个组长都会要求填写双月的 OKR，OKR 的内容其实也是围绕着北极星指标来的，阅读每周的备注，也能了解些业务变化。 &emsp;&emsp;如果有条件的话，那些细分下来支撑北极星指标的各类核心指标也可以去了解下。 &emsp;&emsp;以会员为例，包括日付费人数、日下单量、首次充值人数、连续包月续订人数、会员购买 UV 等。 &emsp;&emsp;在更好的理解业务后，并且有数据支撑，相信能更容易、更科学的找到真正需要优化的点，做到技术赋能业务增长。 ***** > 原文出处： [博客园-前端体验优化](https://www.cnblogs.com/strick/category/2360021.html) [知乎专栏-前端性能精进](https://www.zhihu.com/column/c_1610941255021780992) 已建立一个微信前端交流群，如要进群，请先加微信号freedom20180706或扫描下面的二维码，请求中需注明“看云加群”，在通过请求后就会把你拉进来。还搜集整理了一套[面试资料](https://github.com/pwstrick/daily)，欢迎阅读。 ![](https://box.kancloud.cn/2e1f8ecf9512ecdd2fcaae8250e7d48a_430x430.jpg =200x200) 推荐一款前端监控脚本：[shin-monitor](https://github.com/pwstrick/shin-monitor)，不仅能监控前端的错误、通信、打印等行为，还能计算各类性能参数，包括 FMP、LCP、FP 等。