PaddlePaddle · liyonghua0910 · May 9, 2026 · May 11, 2026
diff --git a/fastdeploy/engine/request.py b/fastdeploy/engine/request.py
@@ -1086,8 +1086,8 @@ def to_dict(self):
         """
         return {k: v for k, v in asdict(self).items()}
 
-    def record_recv_first_token(self):
-        cur_time = time.time()
+    def record_recv_first_token(self, cur_time: float = None):
+        cur_time = time.time() if cur_time is None else cur_time
         self.record_recv_token(cur_time)
         self.engine_recv_first_token_time = cur_time
 
@@ -1099,8 +1099,8 @@ def record_recv_token(self, cur_time: float = None):
         if self.inference_start_time:
             self.model_forward_time = cur_time - self.inference_start_time
 
-    def record_decode_recv_second_token(self):
-        cur_time = time.time()
+    def record_decode_recv_second_token(self, cur_time: float = None):
+        cur_time = time.time() if cur_time is None else cur_time
         self.record_recv_token(cur_time)
         self.decode_recv_second_token_time = cur_time
 

diff --git a/fastdeploy/entrypoints/openai/serving_chat.py b/fastdeploy/entrypoints/openai/serving_chat.py
@@ -325,10 +325,12 @@ async def chat_completion_stream_generator(
                         raise ValueError("{}".format(res["error_msg"]))
 
                     if inference_start_time[idx] == 0:
-                        arrival_time = res["metrics"]["first_token_time"]
-                        inference_start_time[idx] = res["metrics"]["inference_start_time"]
+                        arrival_time = res["metrics"]["first_token_time"] or 0
+                        inference_start_time[idx] = res["metrics"]["inference_start_time"] or 0
                     else:
-                        arrival_time = res["metrics"]["engine_recv_latest_token_time"] - inference_start_time[idx]
+                        arrival_time = (res["metrics"]["engine_recv_latest_token_time"] or 0) - inference_start_time[
+                            idx
+                        ]
                     if first_iteration:
                         num_prompt_tokens = len(prompt_token_ids)
                         num_cached_tokens = res.get("num_cached_tokens", 0)
@@ -468,7 +470,7 @@ async def chat_completion_stream_generator(
                         trace_carrier = res.get("trace_carrier")
                         if trace_carrier:
                             tracing.trace_set_proc_propagate_context(request_id, trace_carrier)
-                            start_time = res["metrics"]["engine_recv_latest_token_time"]
+                            start_time = res["metrics"]["engine_recv_latest_token_time"] or 0
                             tracing.trace_report_span(
                                 tracing.TraceSpanName.POSTPROCESSING,
                                 request_id,
@@ -480,7 +482,7 @@ async def chat_completion_stream_generator(
                                 del res["trace_carrier"]
                         num_choices -= 1
                         main_process_metrics.e2e_request_latency.observe(
-                            time.time() - res["metrics"]["request_start_time"]
+                            time.time() - (res["metrics"]["request_start_time"] or 0)
                         )
                         if previous_num_tokens[idx] != max_tokens:
                             choice.finish_reason = "stop"
@@ -715,7 +717,7 @@ async def chat_completion_full_generator(
                         trace_carrier = data.get("trace_carrier")
                         if trace_carrier:
                             tracing.trace_set_proc_propagate_context(request_id, trace_carrier)
-                            start_time = data["metrics"]["engine_recv_latest_token_time"]
+                            start_time = data["metrics"]["engine_recv_latest_token_time"] or 0
                             tracing.trace_report_span(
                                 tracing.TraceSpanName.POSTPROCESSING,
                                 request_id,

diff --git a/fastdeploy/entrypoints/openai/serving_completion.py b/fastdeploy/entrypoints/openai/serving_completion.py
@@ -369,7 +369,7 @@ async def completion_full_generator(
                         trace_carrier = data.get("trace_carrier")
                         if trace_carrier:
                             tracing.trace_set_proc_propagate_context(request_id, trace_carrier)
-                            start_time = data["metrics"]["engine_recv_latest_token_time"]
+                            start_time = data["metrics"]["engine_recv_latest_token_time"] or 0
                             tracing.trace_report_span(
                                 tracing.TraceSpanName.POSTPROCESSING,
                                 request_id,
@@ -561,10 +561,12 @@ async def completion_stream_generator(
 
                     await self._call_process_response_dict(res, request, stream=True)
                     if inference_start_time[idx] == 0:
-                        arrival_time = res["metrics"]["first_token_time"]
-                        inference_start_time[idx] = res["metrics"]["inference_start_time"]
+                        arrival_time = res["metrics"]["first_token_time"] or 0
+                        inference_start_time[idx] = res["metrics"]["inference_start_time"] or 0
                     else:
-                        arrival_time = res["metrics"]["engine_recv_latest_token_time"] - inference_start_time[idx]
+                        arrival_time = (res["metrics"]["engine_recv_latest_token_time"] or 0) - inference_start_time[
+                            idx
+                        ]
 
                     await self._process_echo_logic(request, idx, res["outputs"])
                     output = res["outputs"]
@@ -655,7 +657,7 @@ async def completion_stream_generator(
                         trace_carrier = res.get("trace_carrier")
                         if trace_carrier:
                             tracing.trace_set_proc_propagate_context(request_id, trace_carrier)
-                            start_time = res["metrics"]["engine_recv_latest_token_time"]
+                            start_time = res["metrics"]["engine_recv_latest_token_time"] or 0
                             tracing.trace_report_span(
                                 tracing.TraceSpanName.POSTPROCESSING,
                                 request_id,

diff --git a/fastdeploy/envs.py b/fastdeploy/envs.py
@@ -207,6 +207,7 @@ def _validate_split_kv_size(value: int) -> int:
     "FD_OTLP_EXPORTER_SCHEDULE_DELAY_MILLIS": lambda: int(os.getenv("FD_OTLP_EXPORTER_SCHEDULE_DELAY_MILLIS", "500")),
     "FD_OTLP_EXPORTER_MAX_EXPORT_BATCH_SIZE": lambda: int(os.getenv("FD_OTLP_EXPORTER_MAX_EXPORT_BATCH_SIZE", "64")),
     "FD_TOKEN_PROCESSOR_HEALTH_TIMEOUT": lambda: float(os.getenv("FD_TOKEN_PROCESSOR_HEALTH_TIMEOUT", "120")),
+    "FD_ENABLE_OBSERVABILITY": lambda: os.getenv("FD_ENABLE_OBSERVABILITY", "1") == "1",
     "FD_XPU_MOE_FFN_QUANT_TYPE_MAP": lambda: os.getenv("FD_XPU_MOE_FFN_QUANT_TYPE_MAP", ""),
     # Whether to enable low latency in mixed scenario
     "FD_XPU_ENABLE_MIXED_EP_MODE": lambda: bool(int(os.getenv("FD_XPU_ENABLE_MIXED_EP_MODE", "0"))),