Concourse workers keep restarting #8953

Anonymous-Coward · 2024-04-26T04:27:07Z

Anonymous-Coward
Apr 26, 2024

We run a concourse setup (v7.10.0) on Kubernetes. Workers use persistent volume (claims) for their data. We have a few hundred pipelines, with on average probably less than 3 jobs and 10 input resources.

We recently updated to Kubernetes 1.29.2. Since the upgrade, workers keep restarting because the liveness check occasionally returns 503. Things were running smoothly before that, with Kubernetes 1.27.x.

This effectively renders concourse unusable - workers restarting keep breaking jobs, since tasks in progress keep disappearing.

What can be the cause?

What I've tried so far: set the initial delay for the liveness check to 120s, set the timeout for the liveness check to 15s, pausing all pipelines, scaling everything to 0, deleting all persistent volumes, also deleting everything from the volumes and containers tables in the concourse database, then scaling up again to 6 workers - that's how many we used before the Kubernetes update. Less than 30 minutes after the restart, every single worker already has restarted several times, even with no pipeline enabled.

What I see in the logs - the only suspicious thing:

{"timestamp":"2024-04-26T06:23:42.479125530Z","level":"error","source":"baggageclaim","message":"baggageclaim.driver.run-command.failed","data":{"args":["subvolume","snapshot","/concourse-work-dir/volumes/live/e036eac7-9913-455f-6933-317750e58921/volume","/concourse-work-dir/volumes/init/e61c70b9-1b70-4a0f-67a6-7a95c0c2b89d/volume"],"command":"btrfs","error":"signal: user defined signal 2","session":"4.3054","stderr":"","stdout":""}}
{"timestamp":"2024-04-26T06:23:42.479128695Z","level":"error","source":"baggageclaim","message":"baggageclaim.driver.run-command.failed","data":{"args":["subvolume","create","/concourse-work-dir/volumes/init/2d151737-e763-459c-5aa4-7f04043e2de8/volume"],"command":"btrfs","error":"signal: user defined signal 2","session":"4.3011","stderr":"","stdout":""}}

taylorsilva · 2024-05-01T20:55:31Z

taylorsilva
May 1, 2024
Maintainer

Based on the code here:

concourse/worker/healthchecker.go

Lines 44 to 62 in 705404a

    
           func (h *healthChecker) CheckHealth(w http.ResponseWriter, req *http.Request) { 
        
           	var err error 
        
           	ctx, cancel := context.WithDeadline(context.Background(), time.Now().Add(h.timeout)) 
        
           	defer cancel() 
        
           	err = doRequest(ctx, h.gardenAddr+"/ping") 
        
           	if err != nil { 
        
           		w.WriteHeader(503) 
        
           		h.logger.Error("failed-to-ping-garden-server", err) 
        
           		return 
        
           	} 
        
           	err = doRequest(ctx, h.baggageclaimAddr+"/volumes") 
        
           	if err != nil { 
        
           		w.WriteHeader(503) 
        
           		h.logger.Error("failed-to-list-volumes-on-baggageclaim-server", err) 
        
           		return 
        
           	}

You should check your logs for either failed-to-list-volumes-on-baggageclaim-server or failed-to-ping-garden-server errors. This is help narrow down what's wrong.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Concourse workers keep restarting #8953

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 1 comment

{{title}}

Select a reply

Concourse workers keep restarting #8953

Anonymous-Coward Apr 26, 2024

Replies: 1 comment

taylorsilva May 1, 2024 Maintainer

Anonymous-Coward
Apr 26, 2024

taylorsilva
May 1, 2024
Maintainer