Go mod 好菜系列 - 0x16 otel 这口链路追踪不是把日志换个颜色

详细聊 OpenTelemetry 在 Go 项目里的位置、trace/span 到底在看什么、它和日志与 metrics 的关系,以及接入时最容易踩的几类坑。

很多团队开始接入 OpenTelemetry 的起点都很像:服务多起来了,请求跨了好几跳,日志也有,指标也有,但一遇到“到底是哪一跳慢了”这种问题,大家还是得靠猜。这个时候,链路追踪就开始上桌了。

otel 在解决什么问题

它想回答的,不只是“有没有报错”,而是:

  • 这次请求经过了哪些服务
  • 每一段各花了多少时间
  • 是哪一层在拖后腿
  • 上下游上下文有没有串起来

如果说日志更像事件记录,metrics 更像体检指标,那 trace 更像一次完整就诊路径。

trace 和 span 别背概念,先背直觉

  • Trace:一次完整请求旅程
  • Span:旅程中的一个步骤

比如用户发起一次下单请求,这条链路里可能包含:

  • API 网关接入
  • 订单服务校验
  • 库存服务扣减
  • 支付服务预创建
  • 数据库写入

这一整串是一个 Trace,每一段是一个 Span。

为什么 otel 现在很常见

因为它已经逐渐成了“可观测性三件套”的公共语言。团队不想被某个单一厂商 SDK 死死绑住时,otel 往往是个更稳的选择。它可以把数据再送去 Jaeger、Tempo、Zipkin,甚至各种商业平台。

Go 项目里最常见的接法

  • HTTP server middleware 自动起 span
  • gRPC client/server interceptor 自动透传上下文
  • 数据库和外部 HTTP 调用做埋点
  • 把 trace context 跟日志字段串起来

你会发现真正有价值的,不是“代码里能不能 new 一个 tracer”,而是上下游能不能接力把上下文传下去。

一个最小可用的 tracing 初始化示例

exp, err := stdouttrace.New(stdouttrace.WithPrettyPrint())
if err != nil {
    log.Fatal(err)
}

tp := sdktrace.NewTracerProvider(
    sdktrace.WithBatcher(exp),
    sdktrace.WithResource(resource.NewSchemaless(
        semconv.ServiceNameKey.String("order-api"),
    )),
)
otel.SetTracerProvider(tp)

tracer := otel.Tracer("order-api")
ctx, span := tracer.Start(context.Background(), "CreateOrder")
defer span.End()

这段代码只是最小骨架,但能帮助你先把 trace/span 的落点看明白。后面再接 Jaeger、Tempo 或其他后端时,整体思路不会变。

日志、指标、追踪是什么关系

这三样不是互相替代,而是互相补位:

  • 日志告诉你发生了什么细节
  • 指标告诉你整体状态正在往哪边偏
  • 追踪告诉你问题出在链路的哪一段

很多团队最大的误区,是只上了 tracing UI,就以为自己已经“可观测”了。实际上链路图只是入口,不是答案本身。

接入时最容易踩的坑

  • 只在入口服务打点,后面服务上下文没传下去
  • span 名称乱写,最后一张图像一锅乱码
  • 把所有函数都打 span,追踪成本和噪音一起爆炸
  • 链路有了,但日志里没有 trace_id,定位还是断的

所以 tracing 不是“点越多越高级”,而是要围绕关键链路、关键外部调用、关键瓶颈点来布。

什么时候特别值得做

  • 服务间调用层级明显增加
  • 超时、慢请求、偶发错误难以复现
  • 你已经不满足于只看单机日志

小结

otel 这口菜更像基础设施,不是表演菜:

  • 它解决的是跨服务链路可见性问题
  • trace / span 的核心是请求旅程,不是概念题
  • 要和日志、metrics 配合起来才真正有用
  • 别盲目全量埋点,关键路径比数量更重要

Read more

序章:长夜之后

后来的历史书把那一天称为“长夜之后”。 这个名字并不准确。事情发生在地球上的许多个白天和夜晚之间,发生在不同经度的清晨、午后、傍晚,发生在地下库房、山体掩体、海军基地、荒原试验场和无人值守的材料贮存井里。它既不是一场战争,也不是一次统一指挥的袭击。没有人按下那个能够解释一切的按钮。 但历史需要一个名称。 “长夜之后”最终被保留下来,是因为调查者在追溯事件源头时,不得不一次又一次回到海王星。回到那颗距离太阳太远、光照近乎吝啬的蓝色行星。回到六名中国宇航员死去的地方。回到一艘核动力科考船熄灭后的漫长黑暗。 在联合调查委员会公开的第一版报告中,事件时间线被压缩成了一页表格。 2030年9月,问海一号在海王星附近失联。 2034年11月,问海二号抵达失事区域,确认问海一号全员死亡。 2035年1月,问海二号完成样本封装,开始返航。 2038年6月,海王星样本进入地球高等级隔离实验室。 2038年7月,全球多个核材料设施发生不可逆事故,部分核电站进入最高级别应急。 2038年8月,所有已知核武库事实上失效,全球核电装机大规模停运。 这张表格后来被反复引用,因为它足够冷静,也

By Fuyu Jia

第一章:四小时以前的地球

林予舟第一次听见“问海一号”的最后通信,是在距离地面三百九十公里的轨道上。 那不是一个适合听遗言的地方。 舷窗外,地球从飞船腹侧缓慢转过去,云层像被谁铺平的白色金属屑,青藏高原的阴影压在晨昏线上。太阳还没有完全越出地平线,近地轨道的黑暗因此显得很薄,像一层马上要被擦掉的墨。 “链路稳定。”林予舟说。 他的声音被舱内麦克风收进去,压缩,打包,送进中继卫星,再落回海南深空任务中心。延迟不到一秒。这样奢侈的实时感,在他们离开地月系统后会迅速消失。等飞船抵达海王星附近,地球说一句话,要四个小时左右才能抵达;他们回一句,地球也要再等四个小时。 对话会变成考古。 控制台上方的状态灯一排排亮着,绿色多得几乎让人不安。问海二号还在近地轨道泊位上,推进舱、居住舱、通信桁架和补给舱刚完成最后一次组合检查。它不像公众宣传片里那样优雅。现实中的深空飞船更像一串被迫相互妥协的工程物:银灰色隔热层、外露管线、姿控喷口、展开到一半的高增益天线,所有东西都为了质量、功耗、散热和冗余让步。 它也不像一艘该去海王星的船。 至少不像一艘该去救援核动力深空飞船的船。 问海二号没有主反应堆。 这件事在公开报

By Fuyu Jia

第二章:没有核反应堆的船

发射前四十分钟,林予舟收到了一条来自地面的私人通信。 通信被压在任务数据包后面,标记为低优先级。它随着推进剂温度曲线、姿态平台校准结果、医学监测基线和最后一版逃逸窗口修正量一起进入问海二号的主机,像一枚被夹在工具箱里的薄纸片。 林予舟本来不该在这个时候打开它。 发射前四十分钟,人的每一个动作都应当有明确目的。检查阀门状态,确认加压序列,复诵逃逸程序,核对地面口令。人的情绪如果在这个时候出现,就应该被折叠起来,放进某个不影响任务的地方。 他还是点开了。 画面里是母亲的厨房。抽油烟机没有开,镜头被热气熏得微微发白。桌上摆着一碗面,青菜、荷包蛋和切得很薄的牛肉。母亲没有出镜,只在画面外说:“我知道你现在不能吃,等回来再吃也一样。” 林予舟看着那碗面,隔了几秒才意识到自己没有呼吸。 “怎么了?”沈从越问。 “私人包。” “家里?” “嗯。” “看完删掉。”沈从越说,“别让它留在主屏缓存里。发射时系统会重排任务窗口,乱七八糟的东西越少越好。” 他语气平淡,不像关心,也不像责备。沈从越说话常常这样,像把所有情绪都预先压成了流程。林予舟关掉视频,把它转存进私人存储区。那碗面从

By Fuyu Jia

第三章:地球变成录音

离开地月系统后的第十九天,林予舟第一次觉得,地球不是一个地方,而是一种延迟。 最初的几天,通信仍然近乎实时。地面问,他们答;他们报数,地面确认。贺岚的声音穿过中继链路抵达舱内时,还带着地球上办公室的秩序感:清晰、稳定、克制。林予舟甚至能从她停顿的长度判断总控大厅里有多少人在看同一块屏幕。 后来,停顿被拉长。 五秒。 十七秒。 一分钟。 再后来,地球的每一句话都像从更早的时间里寄来。母亲发来的第二条视频在一个姿态修正段后抵达。她说北京降温了,问他那边冷不冷。林予舟看着舷窗外没有温度的黑暗,忽然不知道该怎么回答。 他当然冷。 但那不是气温。 “私人日志,任务日二十。”他说,“今天第一次做梦,梦见自己回到地面,站在厨房里。锅里有水,水一直不开。母亲在旁边说火太小,我低头看,灶台下面接着的是问海二号的离子推进器。” 他说完后,自己笑了一下。 笑声在舱内很短,很快被风机吞掉。 沈从越从设备舱飘过,听见最后半句:“梦境记录?” “心理监测要求。” “别把自己写得太正常。

By Fuyu Jia