datasus-etl
Estável v0.1.11 GPL-3.0

Dados públicos de saúde,
do FTP ao parquet consultável.

Um ETL de código aberto para o DATASUS. Baixa do FTP, converte DBC → DBF → DuckDB, enriquece com IBGE e CID-10, e escreve parquet particionado — tudo em um comando. Feito para pesquisadores que precisam dos dados com facilidade e precisão.

ou pip install datasus-etl
Subsistemas 02
UFs 27
Municípios 5,571
Saída parquet · duckdb
Licença GPL-3.0
O que ele faz

Quatro etapas, um comando.

01

Baixa

Puxa os DBCs direto do FTP do DATASUS. Seleção por subsistema, intervalo de datas e UF — nada mais, nada menos.

02

Converte

DBC → DBF → DuckDB → Parquet, tudo em um processo, sem CSV intermediário. Inserts em streaming mantêm o uso de memória previsível em leituras de muitos GB.

03

Enriquece

Junta códigos IBGE de municípios (5.571 entradas), validação CID-10 e mapeamentos categóricos automaticamente. A saída já vem com schema limpo.

04

Expõe

Navegue pela interface web local, consulte com DuckDB SQL, ou leia os parquets particionados de qualquer lugar — polars, pandas, R, Arrow.

Públicos

Feito para dois tipos de usuário.

Pesquisador · clínico

Clique, escolha, rode.

Instale o app, clique no atalho, escolha uma pasta. Selecione subsistema e intervalo de datas. O aplicativo baixa e processa tudo localmente. Consulta via interface web com dropdowns e filtros — sem precisar de SQL.

Veja o tutorial →
Desenvolvedor · time de dados

CLI de verdade, parquet de verdade.

O mesmo instalador expõe o comando datasus completo. Pipelines automatizados, API Python e DuckDB como superfície de consulta. A saída é parquet particionado (Hive) — plugável no seu stack existente.

Documentação (EN) →
Contexto de pesquisa

Feito dentro de um grupo de pesquisa do CNPq.

Desenvolvido por Nycholas Maia em colaboração técnica com Paulo Alves Maia (FUNDACENTRO) dentro do grupo de pesquisa do CNPq "Mudanças Climáticas e Segurança e Saúde no Trabalho".

Grupo de pesquisa no CNPq ↗
Instalar

Pronto quando você estiver.

O botão detecta o seu SO. A tabela completa de plataformas, checksums e notas de instalação está na página de download. Cada release é cortada a partir do arquivo VERSION do repositório — o mesmo número aparece no rodapé do app e em datasus version.

O que esperar
  • Primeira abertura: ~20s para aquecer os índices parquet.
  • Instalador sem assinatura; um clique em "Executar assim mesmo" no Windows; "botão direito → Abrir" no macOS.
  • O SIM é publicado com ~2 anos de atraso; o app avisa.