Falha add cluster Proxmox (2 nós)

1. Falha add cluster Proxmox (2 nós)

Marco Proença
mproenca

(usa Debian)

Enviado em 29/08/2025 - 09:14h

Já aconteceu isto com vocês?


Olá a todos.

Eu tenho feito muitas instalações de Proxmox, standalone e cluster. 90% sem erros ou falhas em servidores Dell/HP
Normalmente uso em minha infra.
2 nós proxmox
1 servidor Truenas para armazenar os discos das VMs.
1 PBS (virtual ou fisico dependendo do projeto)

Caso.
Estou criando um cluster em um cliente, remotamente, usando iDrac.
Ao adicionar o servidor ao Cluster, ele da falha, e então preciso fazer o rollback.

Sempre seguindo documentação
https://pve.proxmox.com/wiki/Cluster_Manager

Em nosso LAB todos os testes foram feitos, mas tem 1 que ainda não fiz.

Colocar um switch swap no local para montar o Cluster, eu acredito que a falha esta ocorrendo devido
as configurações do switch do cliente, o qual não tenho autonomia nem acesso para verificar as politicas e configurações.

Neste cenarios, temos
1 S4 (pfsense) virtualizado que recebe os 2 links Wan (Em ambos servidores proxmox tem 4 interfaces de rede. 1-LAN -2 WAN - 3 Wan2 4-Hotspot)





Aug 27 12:09:52 pve02ha pvedaemon[3490909]: <root@pam> adding node pve03ha to cluster
Aug 27 12:09:52 pve02ha pmxcfs[3410075]: [dcdb] notice: wrote new corosync config '/etc/corosync/corosync.conf' (version = 4)
Aug 27 12:09:53 pve02ha corosync[3474422]: [CFG ] Config reload requested by node 1
Aug 27 12:09:53 pve02ha corosync[3474422]: [TOTEM ] Configuring link 0
Aug 27 12:09:53 pve02ha corosync[3474422]: [TOTEM ] Configured link number 0: local addr: 192.168.0.3, port=5405
Aug 27 12:09:53 pve02ha corosync[3474422]: [QUORUM] This node is within the non-primary component and will NOT provide any services.
Aug 27 12:09:53 pve02ha corosync[3474422]: [QUORUM] Members[1]: 1
Aug 27 12:09:53 pve02ha corosync[3474422]: [KNET ] host: host: 2 (passive) best link: 0 (pri: 0)
Aug 27 12:09:53 pve02ha corosync[3474422]: [KNET ] host: host: 2 has no active links
Aug 27 12:09:53 pve02ha corosync[3474422]: [KNET ] host: host: 2 (passive) best link: 0 (pri: 1)
Aug 27 12:09:53 pve02ha corosync[3474422]: [KNET ] host: host: 2 has no active links
Aug 27 12:09:53 pve02ha corosync[3474422]: [KNET ] host: host: 2 (passive) best link: 0 (pri: 1)
Aug 27 12:09:53 pve02ha corosync[3474422]: [KNET ] host: host: 2 has no active links
Aug 27 12:09:53 pve02ha corosync[3474422]: [KNET ] pmtud: MTU manually set to: 0
Aug 27 12:09:53 pve02ha pmxcfs[3410075]: [status] notice: node lost quorum
Aug 27 12:09:53 pve02ha pmxcfs[3410075]: [status] notice: update cluster info (cluster name CLUSTER-MAIN, version = 4)
Aug 27 12:10:10 pve02ha pvescheduler[4014189]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:10:10 pve02ha pvescheduler[4014190]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:10:15 pve02ha postfix/smtp[4013604]: connect to mail-com-br.mail.protection.outlook.com[52.xxx.xxx.13]:25: Connection timed out
Aug 27 12:10:26 pve02ha pvedaemon[3498708]: <root@pam> successful auth for user 'user@pve'
Aug 27 12:10:45 pve02ha postfix/smtp[4013604]: connect to ti-com-br.mail.protection.outlook.com[2a01:xxx:xxx:f913::1]:25: Connection timed out
Aug 27 12:11:10 pve02ha pvescheduler[4014580]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:11:10 pve02ha pvescheduler[4014579]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:11:15 pve02ha postfix/smtp[4013604]: connect to ti-com-br.mail.protection.outlook.com[2a01:xxx:xxx:f805::]:25: Connection timed out
Aug 27 12:11:15 pve02ha postfix/smtp[4013604]: 9B36B5A0F3F: to=<suporte@ti.com.br>, relay=none, delay=222848, delays=222682/0.02/166/0, dsn=4.4.1, status=deferred (connect to ti-com-br.mail.protection.outlook.com[2a01:xxx:xxx:f805::]:25: Connection timed out)
Aug 27 12:11:27 pve02ha pvedaemon[3495868]: <root@pam> successful auth for user 'root@pam'
Aug 27 12:12:10 pve02ha pvescheduler[4014971]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:12:10 pve02ha pvescheduler[4014970]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:12:16 pve02ha pvedaemon[3490909]: <root@pam> successful auth for user 'root@pam'
Aug 27 12:13:10 pve02ha pvescheduler[4015133]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:13:10 pve02ha pvescheduler[4015132]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:13:29 pve02ha postfix/qmgr[912046]: 63D945A0F63: from=<root@pve02ha.local>, size=192682, nrcpt=1 (queue active)
Aug 27 12:14:10 pve02ha pvescheduler[4015185]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:14:10 pve02ha pvescheduler[4015184]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:14:13 pve02ha pvestatd[1187]: status update time (121.059 seconds)
Aug 27 12:15:10 pve02ha pvescheduler[4015569]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:15:10 pve02ha pvescheduler[4015568]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:15:15 pve02ha postfix/smtp[4015158]: connect to ti-com-br.mail.protection.outlook.com[2a01:xxx:xxx:c92c::]:25: Connection timed out
Aug 27 12:15:45 pve02ha postfix/smtp[4015158]: connect to ti-com-br.mail.protection.outlook.com[2a01:xxx:xxx:c902::7]:25: Connection timed out
Aug 27 12:16:10 pve02ha pvescheduler[4015965]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:16:10 pve02ha pvescheduler[4015964]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:16:15 pve02ha postfix/smtp[4015158]: connect to ti-com-br.mail.protection.outlook.com[52.xxx.xxx.6]:25: Connection timed out
Aug 27 12:16:15 pve02ha postfix/smtp[4015158]: 63D945A0F63: to=<suporte@ti.com.br>, relay=none, delay=130478, delays=130312/0.02/166/0, dsn=4.4.1, status=deferred (connect to ti-com-br.mail.protection.outlook.com[52.xxx.xxx.6]:25: Connection timed out)
Aug 27 12:17:01 pve02ha CRON[4016358]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
Aug 27 12:17:01 pve02ha CRON[4016359]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
Aug 27 12:17:01 pve02ha CRON[4016358]: pam_unix(cron:session): session closed for user root
Aug 27 12:17:10 pve02ha pvescheduler[4016357]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:17:10 pve02ha pvescheduler[4016356]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:18:10 pve02ha pvescheduler[4016747]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:18:10 pve02ha pvescheduler[4016746]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:18:48 pve02ha pveproxy[1226]: worker 4001912 finished
Aug 27 12:18:48 pve02ha pveproxy[1226]: starting 1 worker(s)
Aug 27 12:18:48 pve02ha pveproxy[1226]: worker 4017072 started
Aug 27 12:18:49 pve02ha pveproxy[4017071]: worker exit
Aug 27 12:19:10 pve02ha pvescheduler[4017137]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:19:10 pve02ha pvescheduler[4017136]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:19:25 pve02ha pmxcfs[3410075]: [dcdb] notice: data verification successful
Aug 27 12:19:53 pve02ha pveproxy[4007688]: worker exit
Aug 27 12:19:53 pve02ha pveproxy[1226]: worker 4007688 finished
Aug 27 12:19:53 pve02ha pveproxy[1226]: starting 1 worker(s)
Aug 27 12:19:53 pve02ha pveproxy[1226]: worker 4017470 started
Aug 27 12:20:10 pve02ha pvescheduler[4017534]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:20:10 pve02ha pvescheduler[4017533]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:21:10 pve02ha pvescheduler[4017955]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:21:10 pve02ha pvescheduler[4017954]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:22:10 pve02ha pvescheduler[4018436]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:22:10 pve02ha pvescheduler[4018435]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:23:10 pve02ha pvescheduler[4018709]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:23:10 pve02ha pvescheduler[4018708]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:24:10 pve02ha pvescheduler[4018759]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:24:10 pve02ha pvescheduler[4018758]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:24:23 pve02ha pvestatd[1187]: proxmox-backup-client failed: Error: http request timed out
Aug 27 12:24:24 pve02ha pvestatd[1187]: status update time (120.996 seconds)
Aug 27 12:25:10 pve02ha pvescheduler[4019070]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:25:10 pve02ha pvescheduler[4019069]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:25:26 pve02ha pvedaemon[3490909]: <root@pam> successful auth for user 'user@pve'
Aug 27 12:26:10 pve02ha pvescheduler[4019460]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:26:10 pve02ha pvescheduler[4019459]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:27:10 pve02ha pvescheduler[4019853]: jobs: cfs-lock 'file-jobs_cfg' error: no quorum!
Aug 27 12:27:10 pve02ha pvescheduler[4019852]: replication: cfs-lock 'file-replication_cfg' error: no quorum!
Aug 27 12:27:16 pve02ha pvedaemon[3495868]: <root@pam> successful auth for user 'root@pam'
Aug 27 12:27:24 pve02ha pveproxy[1226]: worker 4008740 finished


  


2. Re: Falha add cluster Proxmox (2 nós)

Patrick Ernandes
patrickernandes

(usa Debian)

Enviado em 29/08/2025 - 11:54h

Conecta os dois servidores diretamente; ja que vc está fazendo td via idrac.
Assim nao passa pelo switch.
Depois que der td certo, vc recoloca os cabos no switch.

att,
---
Linux para suporte: http://sino.ernandes.info


3. Re: Falha add cluster Proxmox (2 nós)

Buckminster
Buckminster

(usa Debian)

Enviado em 29/08/2025 - 11:56h

replication: cfs-lock 'file-replication config' error: no quorum!
Isso normalmente significa que um número suficiente de nós no cluster não está em comunicação ou não é reconhecido como participantes ativo.

proxmox-backup-client failed: Error: http request timed out
Este erro indica que o cliente de backup do Proxmox (que lida com tarefas de backup) não conseguiu estabelecer ou manter uma conexão com o Servidor de Backup Proxmox (PBS) ou com o local de armazenamento de destino dentro do tempo especificado.
Esse tempo limite pode ser um sintoma de problemas de conectividade de rede, alta latência ou sobrecarga ou falta de resposta do Servidor de Backup Proxmox. No contexto do erro de quórum, a falta de quórum também pode estar afetando indiretamente a estabilidade da rede ou a disponibilidade de recursos para operações de backup.

Sugestões:
Verifique a configuração da rede, verifique endereços IP, máscaras de sub-rede e configurações de gateway em todos os nós do cluster.
Certifique-se de que todos os nós possam executar ping entre si.
Confirme se nenhuma regra de firewall está bloqueando a comunicação entre os nós do cluster (especialmente para portas Corosync).
Investigue possíveis problemas de rede usando ferramentas como ping ou traceroute.

Clusters de dois nós: em um cluster Proxmox de dois nós, o requisito de quorum padrão (50% + 1) significa que ambos os nós devem estar online para que as operações prossigam. Se um nó falhar, o cluster perde quorum.
Definindo o quorum esperado: para uma configuração de dois nós, você pode definir temporariamente o quorum esperado para 1 no nó ativo usando "pvecm expected 1" para permitir operações quando um nó estiver inativo. Isso deve ser feito com cautela e não é uma solução de longo prazo para alta disponibilidade.
https://pve.proxmox.com/wiki/Cluster_Manager#_preparing_nodes

Quorum
O Proxmox VE usa uma técnica baseada em quorum para fornecer um estado consistente entre todos os nós do cluster.
Quórum é o número mínimo de votos que uma transação distribuída precisa obter para poder executar uma operação em um sistema distribuído.
No caso de particionamento de rede, as mudanças de estado exigem que a maioria dos nós esteja online. O cluster alterna para o modo somente leitura se perder quórum.
O Proxmox VE atribui um único voto a cada nó por padrão.
https://pve.proxmox.com/wiki/Cluster_Manager#_quorum

1- Quando um ou mais nós do cluster estão offline, inacessíveis ou com problemas de comunicação leva à perda da maioria necessária para o quorum, provavelmente é o host 2.

2- O próprio Servidor de Backup Proxmox pode estar apresentando problemas de desempenho, esgotamento de recursos ou falhas de serviço, impedindo-o de responder às solicitações de backup.
Recursos insuficientes (CPU, RAM, E/S de disco) no host Proxmox VE ou no Servidor de Backup Proxmox podem levar a tempos limite durante as operações de backup.


Aug 27 12:09:53 pve02ha corosync[3474422]: [TOTEM ] Configured link number 0: local addr: 192.168.0.3, port=5405
Aug 27 12:09:53 pve02ha corosync[3474422]: [QUORUM] This node is within the non-primary component and will NOT provide any services.
Aug 27 12:09:53 pve02ha corosync[3474422]: [QUORUM] Members[1]: 1
Aug 27 12:09:53 pve02ha corosync[3474422]: [KNET ] host: host: 2 (passive) best link: 0 (pri: 0)
Aug 27 12:09:53 pve02ha corosync[3474422]: [KNET ] host: host: 2 has no active links
Aug 27 12:09:53 pve02ha corosync[3474422]: [KNET ] host: host: 2 (passive) best link: 0 (pri: 1)
Aug 27 12:09:53 pve02ha corosync[3474422]: [KNET ] host: host: 2 has no active links
Aug 27 12:09:53 pve02ha corosync[3474422]: [KNET ] host: host: 2 (passive) best link: 0 (pri: 1)
Aug 27 12:09:53 pve02ha corosync[3474422]: [KNET ] host: host: 2 has no active links

Está dizendo acima que o host 2 está dentro do componente não primário e NÃO fornecerá nenhum serviço; e não tem um link ativo. "Dentro do componente não-primário" indica um problema com a configuração do cluster geralmente relacionado a problemas de rede, perda de quorum ou configuração incorreta.
Todos os nós devem ser capazes de se conectar entre si por meio das portas UDP 5405-5412 para que o corosync funcione.

Faça um ping do servidor para o host 2 e faça um ping do host 1 para o host 2 e faça um ping do host 1 para o servidor e do servidor para o host 1.
Caso todos eles passem pelo switch e pingarem entre si daí pode descartar o problema no switch.
Por exemplo: o servidor está ligado aos nós através do switch, ou seja, o switch está no meio do caminho.

Pode ser também um problema de rede no host 2 ou pode ser que o link de rede do nó 2, provavelmente o usado para comunicação do cluster está inativo ou com problemas.


_________________________________________________________
Rule number one: Always listen 'to' Buck!
Enquanto o cursor estiver pulsando, há vida!






Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts