Governo Eletrônico no Brasil: Análise Longitudinal 2015–2025
Replicação e expansão de Vargas, Macadar, Wanke & Antunes (2021)
Autor
Marcus Ramalho
Data de Publicação
22 de abril de 2026
1 Introdução
Este documento replica e expande a análise de Vargas, Macadar, Wanke & Antunes (2021), publicada nos Cadernos EBAPE.BR, que investigou os fatores que influenciam o uso de serviços de governo eletrônico (e-gov) pelos cidadãos brasileiros.
O estudo original analisou apenas os microdados da pesquisa TIC Domicílios 2019, usando regressão logística para modelar a probabilidade de uso de e-gov a partir de variáveis sociodemográficas. Aqui, replicamos o modelo para todos os anos de 2015 a 2025 (10 edições — 2020 excluído por ausência do módulo G), comparamos a evolução dos coeficientes e interpretamos as mudanças ao longo da década.
1.0.1 Principais achados do artigo original (2019)
Indicador
Valor
N (após filtros)
11.781
Accuracy
0,7314
F1-score
0,8023
Recall
0,8428
Precision
0,7656
Variáveis significativas: idade (−), PEA (+), e-commerce (+), grau de instrução (+), classe econômica (+), renda familiar (+), dispositivo de acesso (+). Variáveis não significativas: sexo, região geográfica, área urbana/rural.
Os microdados da pesquisa TIC Domicílios estão disponíveis no site do Cetic.br. Baixamos a base de indivíduos (.sav) de cada ano, que contém as variáveis sociodemográficas e o módulo G de governo eletrônico.
AvisoEdição 2020 excluída
A edição 2020 teve metodologia adaptada por causa da pandemia (coleta por telefone CATI). O módulo G (governo eletrônico) não foi coletado, impossibilitando a inclusão na análise longitudinal.
p_desc <- descritivas %>%select(ano, `E-gov`= prop_egov, PEA = prop_pea, `E-commerce`= prop_h2) %>%pivot_longer(-ano, names_to ="Indicador", values_to ="Proporção") %>%ggplot(aes(x = ano, y =`Proporção`, color = Indicador)) +geom_line(linewidth =1) +geom_point(size =2.5) +scale_y_continuous(labels = percent) +scale_x_continuous(breaks = descritivas$ano) +labs(x ="Ano", y ="Proporção", color =NULL)ggplotly(p_desc) %>%layout(legend =list(orientation ="h", y =-0.15))
Figura 1: Evolução das características da amostra (após filtros)
Três tendências estruturais se destacam na composição da amostra ao longo da década, todas com implicações diretas para a interpretação dos modelos:
Idade média da amostra. A idade média subiu de 34.2 anos (2015) para 42 anos (2025). Em 2019 — ano-base do artigo original — a média era 38.7 anos. Esse envelhecimento reflete a universalização do acesso à internet entre faixas etárias mais velhas. Como a idade tem efeito negativo sobre o uso de e-gov, a estabilidade do coeficiente de idade ao longo dos anos (ver Seção 8) torna-se ainda mais relevante: a barreira etária persiste mesmo com a popularização.
Proporção de PEA na amostra. A parcela de economicamente ativos caiu de 83,9% (2015) para 68,2% (2025). Isso indica que a internet se expandiu para aposentados, estudantes e pessoas fora do mercado de trabalho. Vargas et al. (2021) encontraram a PEA como preditor significativo em 2019 (quando 79,7% eram PEA) — a queda dessa proporção ajuda a explicar por que o coeficiente da PEA pode ter se enfraquecido nos anos recentes.
E-commerce. A proporção de compradores online oscilou entre 34,6% (2018) e 42,1% (2023). A relativa estabilidade sugere que o e-commerce, diferentemente do acesso à internet, não se universalizou na mesma velocidade — e explica por que ele permanece como o preditor mais discriminante: quem compra online continua sendo um subgrupo com maior letramento digital.
Tamanho amostral. O N após filtros cresceu de 8.506 (2015) para 16.373 (2025), refletindo a ampliação da base de respondentes que usam internet (filtro C1). O N reduzido de 2015 deve-se à ausência de C5_Dispositivos, que exclui muitas observações por missing naquele ano.
7 Replicação do Modelo Original (2019)
A replicação do modelo de regressão logística do artigo original foi feita com multinom() do pacote nnet e dummies via fastDummies, seguindo exatamente a metodologia descrita em Vargas et al. (2021).
Tabela 3: Validação: replicação vs. artigo original (2019)
Métrica
Artigo
Replicação
N
11.781
11.781
Accuracy
0,7314
0.7314
F1-score
0,8023
0.8023
Recall
0,8428
0.8428
Precision
0,7656
0.7656
A replicação reproduz exatamente o pipeline da Figura 1 do artigo original. Cada passo intermediário bate: 20.536 obs brutas → 14.701 após filtro C1 = 1 → 12.884 após exclusão de indefinidas → 11.781 após filtro de idade ≥ 16. O N final e todas as métricas coincidem com os valores publicados.
Os coeficientes de 2019 confirmam os achados de Vargas et al. (2021):
E-commerce (H2): o preditor mais forte (β = 1,055, p < 0,001). Quem compra online tem 2.9× mais chance (odds ratio) de usar e-gov. Isso corrobora a hipótese de que a familiaridade com transações digitais é um facilitador central.
Idade: efeito negativo e significativo (β = -0,022, p < 0,001). Cada ano adicional reduz em 2,1% a chance de uso.
PEA: ser economicamente ativo aumenta a chance (β = 0,558, p < 0,001), possivelmente pela necessidade de interagir com serviços trabalhistas e previdenciários.
Grau de instrução superior: forte efeito positivo (β = 1,145, p < 0,001), refletindo a barreira educacional ao uso de e-gov.
Usar computador e celular (C5=3): o maior efeito entre os dispositivos (β = 1,092, p < 0,001), sugerindo que o acesso multidispositivo amplia a interação com e-gov.
A pergunta que motiva a expansão longitudinal é: esses padrões se mantêm ao longo da década, ou são específicos de 2019?
8 Validação longitudinal (2015-2025)
Antes de concentrar a análise no período pós-pandemia, esta seção verifica a estabilidade do modelo original ao longo de uma década. O objetivo é mostrar que a estrutura de determinantes identificada por Vargas et al. (2021) em 2019 se mantém ao longo da série histórica, servindo como base sólida para a extensão com novas variáveis apresentada na Seção 6.
Agora aplicamos o mesmo modelo a todos os anos disponíveis e analisamos a evolução dos coeficientes e das métricas de desempenho.
# --- Variaveis auxiliares para inline R no texto ---n_anos <-nrow(metricas_todos)anos_serie <-str_c(metricas_todos$ano, collapse =", ")# Proporcao e-govegov_min <- metricas_todos %>%slice_min(prop_egov, n =1)egov_max <- metricas_todos %>%slice_max(prop_egov, n =1)# Validacao 2019m19 <- metricas_todos %>%filter(ano ==2019)# Coeficientes-chave: rangescoef_h2 <- coefs_todos %>%filter(term =="h2")coef_ida <- coefs_todos %>%filter(term =="idade")coef_pea <- coefs_todos %>%filter(term =="pea")h2_range <-c(min(coef_h2$estimate), max(coef_h2$estimate))ida_range <-c(min(coef_ida$estimate), max(coef_ida$estimate))pea_range <-c(min(coef_pea$estimate), max(coef_pea$estimate))# AUC rangeauc_range <-c(min(metricas_todos$auc), max(metricas_todos$auc))acc_range <-c(min(metricas_todos$accuracy), max(metricas_todos$accuracy))# 2015 infom15 <- metricas_todos %>%filter(ano ==2015)# 2021 infom21 <- metricas_todos %>%filter(ano ==2021)# Picos e valespico1 <- metricas_todos %>%filter(ano !=2015) %>%slice_max(prop_egov, n =1)pico2 <- metricas_todos %>%filter(ano !=2015, ano != pico1$ano) %>%slice_max(prop_egov, n =1)vale1 <- metricas_todos %>%slice_min(prop_egov, n =1)vale2 <- metricas_todos %>%filter(ano != vale1$ano) %>%slice_min(prop_egov, n =1)
8.1 Evolução do uso de governo eletrônico
Ver código
p_egov <- metricas_todos %>%ggplot(aes(x = ano, y = prop_egov)) +geom_line(linewidth =1.2, color ="#2563EB") +geom_point(size =3.5, color ="#2563EB") +geom_text(aes(label =percent(prop_egov, accuracy =0.1)),vjust =-1.3, size =3.5, color ="#1e40af") +annotate("rect", xmin =2019.5, xmax =2020.5, ymin =0, ymax =1,alpha =0.08, fill ="red") +annotate("text", x =2020, y =0.92, label ="2020\n(sem dados)",size =3, color ="red", fontface ="italic") +scale_x_continuous(breaks = metricas_todos$ano) +scale_y_continuous(labels = percent, limits =c(0, 1)) +labs(x ="Ano", y ="Proporção de uso de e-gov",caption ="Fonte: TIC Domicílios (Cetic.br) | 2020 excluído (Módulo G não coletado)" )ggplotly(p_egov, tooltip =c("x", "y"))
Figura 2: Proporção de usuários de internet (16+) que usaram e-gov nos últimos 12 meses
A proporção de uso de e-gov oscila entre 52,6% e 74,0% ao longo da série, sem tendência monotônica de crescimento. Destacam-se:
Picos: 2023 (67,7%) e 2021 (67,1%) — possivelmente impulsionados pela digitalização acelerada pós-pandemia
Vales: 2018 (52,6%) e 2024 (52,9%)
2015: valor elevado (74,0%) mas com N muito reduzido (2.632 vs ~10–16k nos demais anos), devendo ser interpretado com cautela
8.2 Evolução dos coeficientes-chave
Ver código
vars_chave <-c("idade", "pea", "h2")labels_vars <-c(idade ="Idade", pea ="PEA (ativo)", h2 ="E-commerce (H2)")p_coefs <- coefs_todos %>%filter(term %in% vars_chave) %>%mutate(term_label = labels_vars[term]) %>%ggplot(aes(x = ano, y = estimate, color = term_label, fill = term_label)) +geom_ribbon(aes(ymin = conf.low, ymax = conf.high), alpha =0.12, color =NA) +geom_line(linewidth =1) +geom_point(size =2.5) +geom_hline(yintercept =0, linetype ="dashed", color ="grey50") +scale_x_continuous(breaks = metricas_todos$ano) +labs(x ="Ano", y ="Coeficiente (log-odds)",color =NULL, fill =NULL,caption ="Fonte: TIC Domicílios (Cetic.br)" )ggplotly(p_coefs) %>%layout(legend =list(orientation ="h", y =-0.15))
Figura 3: Evolução dos coeficientes-chave do modelo logístico com IC 95%
8.2.1 Interpretação dos coeficientes
E-commerce (H2) — O preditor mais forte e mais estável: coeficiente entre 0,947 e 1,250 em todos os anos. Quem compra online tem ~3× mais chance de usar e-gov. Esse efeito não se alterou em uma década, sugerindo que a familiaridade com transações digitais é um facilitador robusto e persistente.
Idade — Efeito negativo pequeno e notavelmente constante: -0,022 a -0,013 em todos os anos. Cada ano adicional de idade reduz marginalmente a chance de uso de e-gov. A hipótese de que o efeito da idade diminuiria com a popularização não se confirma: o coeficiente permanece estável.
PEA (condição de atividade) — Efeito positivo moderado (0,314 a 0,599), com leve tendência de queda ao longo dos anos. Em 2015, o coeficiente era 0,526; em 2025, 0,430. A redução sugere que ser economicamente ativo se tornou menos determinante para o uso de e-gov, possivelmente porque serviços sociais (Auxílio Brasil, Bolsa Família) passaram a ser acessados digitalmente por pessoas fora da PEA.
Figura 4: Coeficientes do modelo logístico por ano — cores indicam direção e magnitude, texto indica significância
O heatmap revela padrões que o artigo original de 2019 não pôde capturar:
Variáveis consistentemente significativas (*) em toda a série**: idade, PEA e H2 mantêm significância a p < 0,001 em todos os 10 anos. Essa estabilidade é notável e indica que esses são determinantes estruturais do uso de e-gov, não artefatos de um ano específico. Vargas et al. (2021) estavam corretos ao identificá-los como preditores centrais — a análise longitudinal valida essa conclusão.
Grau de instrução superior (nível 4): fortemente positivo e significativo de 2015 a 2023 (β entre 1,070 e 1,586), mas perde significância e inverte sinal em 2024–2025. Isso pode indicar uma mudança na codificação da variável nessas edições (de GRAU_INSTRUCAO_2 para GRAU_INST_1) que, embora mantenha 4 categorias nominalmente equivalentes, pode ter limiares de classificação diferentes. Esse resultado merece investigação complementar com os dicionários de variáveis.
Classe econômica (nível A): raramente significativa — apenas 0 de 10 anos com p < 0,05. O artigo original já havia notado a baixa relevância dessa variável em 2019. A análise longitudinal confirma: a classe econômica da ABEP, quando controlada por renda e escolaridade, não é preditor robusto de uso de e-gov. Isso pode decorrer de colinearidade com renda familiar e grau de instrução, que capturam os mesmos fenômenos.
C5_Dispositivos (Ambos = nível 3): efeito positivo e significativo nos anos centrais da série (2017–2019, 2022), mas instável nos anos recentes. Em 2019, usar computador e celular era forte preditor (β = 1,092). A perda de significância pós-2021 pode refletir a convergência do acesso: à medida que quase todos os usuários de internet passaram a usar celular, a distinção “só celular vs ambos” perdeu poder discriminante.
Renda familiar: efeito positivo nos níveis intermediários (3–6), mas irregular nos extremos. A faixa de renda mais alta nem sempre é significativa, provavelmente por baixa frequência amostral. Diferentemente do que o corte transversal de 2019 sugeria, a renda não é um preditor tão estável quanto o grau de instrução ao longo da década.
8.4 Desempenho do modelo ao longo dos anos
Ver código
p_met <- metricas_todos %>%select(ano, Accuracy = accuracy, `AUC-ROC`= auc, `F1-Score`= f1) %>%pivot_longer(-ano, names_to ="Métrica", values_to ="Valor") %>%ggplot(aes(x = ano, y = Valor, color =`Métrica`)) +geom_line(linewidth =1) +geom_point(size =3) +scale_x_continuous(breaks = metricas_todos$ano) +scale_y_continuous(limits =c(0.5, 1)) +labs(x ="Ano", y ="Valor", color =NULL,caption ="Fonte: TIC Domicílios (Cetic.br)")ggplotly(p_met) %>%layout(legend =list(orientation ="h", y =-0.15))
Figura 5: Accuracy, F1-Score e AUC-ROC do modelo logístico por ano
Ver código
metricas_todos %>%mutate(across(c(prop_egov, accuracy, precision, recall, f1, auc), ~round(.x, 4))) %>%rename(Ano = ano, N = n, `% E-gov`= prop_egov,Accuracy = accuracy, Precisão = precision,Recall = recall, F1 = f1, AUC = auc ) %>% knitr::kable(format.args =list(big.mark ="."))
Tabela 5: Métricas de desempenho do modelo por ano
Ano
N
% E-gov
Accuracy
Precisão
Recall
F1
AUC
2.015
2.632
0.7397
0.7644
0.7834
0.9420
0.8554
0.7392
2.016
9.072
0.6060
0.7002
0.7268
0.8096
0.7660
0.7520
2.017
10.470
0.6129
0.7042
0.7428
0.7913
0.7663
0.7692
2.018
11.081
0.5262
0.6926
0.7215
0.6772
0.6987
0.7565
2.019
11.781
0.6467
0.7314
0.7656
0.8428
0.8023
0.7810
2.021
12.914
0.6714
0.7261
0.7581
0.8694
0.8100
0.7673
2.022
12.648
0.6142
0.7047
0.7434
0.7930
0.7674
0.7625
2.023
13.533
0.6775
0.7365
0.7715
0.8682
0.8170
0.7751
2.024
14.144
0.5293
0.6992
0.7342
0.6765
0.7042
0.7717
2.025
16.373
0.6629
0.7329
0.7678
0.8558
0.8094
0.7714
O AUC-ROC manteve-se estável entre 0,7392 (2015) e 0,7810 (2019), indicando que o conjunto de variáveis proposto por Vargas et al. (2021) mantém poder preditivo consistente ao longo de uma década. Para contextualizar: o AUC de 2019 no artigo original não foi reportado, mas a replicação aqui apresentada encontra 0,7810, valor próximo da mediana da série inteira. O modelo de 2019 não é excepcionalmente bom nem ruim; ele é representativo do período.
A accuracy varia mais (0,6926–0,7644), e essa variação é quase inteiramente explicável pela proporção de uso de e-gov em cada ano (r = 0,921 entre accuracy e distância de 50%). Nos anos em que o uso se aproxima de 50% (2018, 2024), a classificação binária se torna intrinsecamente mais difícil, reduzindo a accuracy mesmo sem perda de capacidade discriminante. O F1-Score espelha esse padrão: é mais baixo em 2018 (0,6987) quando a classe positiva é minoritária, e mais alto em 2015 (0,8554) quando predomina.
A conclusão central é que a estrutura preditiva identificada em 2019 não é um achado pontual: o mesmo conjunto de variáveis discrimina usuários e não-usuários de e-gov com desempenho comparável ao longo de toda a década.
Figura 7: Evolução dos coeficientes das variáveis-chave ao longo dos anos
As duas animações acima permitem visualizar um achado central que só emerge da análise longitudinal: a hierarquia relativa dos preditores é invariante ao longo da década. Em todos os anos, o e-commerce (H2) domina com coeficiente acima de 0,947, a PEA contribui moderadamente, e a idade exerce efeito negativo pequeno. Essa “assinatura” do modelo se mantém mesmo em anos com proporções de uso de e-gov muito diferentes — de 52,6% em 2018 a 74,0% em 2015.
O que muda entre anos é a magnitude dos efeitos, não sua direção. Em particular, note como o coeficiente da PEA oscila mais do que os outros dois — um indício de que a relação entre condição de atividade econômica e uso de e-gov é mediada por fatores contextuais (políticas públicas, oferta de serviços digitais) que variam mais do que a relação entre, por exemplo, familiaridade digital e e-gov.
8.6 Modelo pooled com ano como covariável (2015-2025)
Para testar formalmente se há efeito temporal no uso de e-gov além do explicado pelas variáveis sociodemográficas, três modelos pooled são ajustados empilhando todos os anos: (i) sem a variável ano, (ii) com ano categórico (dummies por edição) e (iii) com ano contínuo (tendência linear).
Incluir o ano como variável categórica melhora significativamente o modelo. Isso confirma que há variação temporal no uso de e-gov além do que é explicado pelas variáveis sociodemográficas.
Tendência linear: coeficiente do ano = 0.0666 (p < 0.001). Há uma tendência temporal positiva significativa.
8.8 Coeficientes das variáveis sociodemográficas (3 modelos)
Ver código
coefs_base_pooled <-extrair_coefs_pooled(modelo_base, "Sem ano")coefs_cat_pooled <-extrair_coefs_pooled(modelo_ano, "Com ano (categórica)")coefs_trend_pooled <-extrair_coefs_pooled(modelo_trend, "Com ano (contínua)")coefs_3modelos <-bind_rows(coefs_base_pooled, coefs_cat_pooled, coefs_trend_pooled)# Tabela com variáveis-chavevars_chave <-c("(Intercept)", "idade", "pea", "h2", "ano_num","classe_cb_1", "classe_cb_2", "classe_cb_3","grau_instrucao_2", "grau_instrucao_3", "grau_instrucao_4","c5_dispositivos_2", "c5_dispositivos_3","renda_familiar_1", "renda_familiar_2", "renda_familiar_3","renda_familiar_4", "renda_familiar_5", "renda_familiar_6")coefs_3modelos %>%filter(term %in% vars_chave) %>%mutate(coef_fmt =str_c(round(estimate, 4), sig),term =case_when( term =="ano_num"~"Ano (contínua)", term =="classe_cb_1"~"Classe B", term =="classe_cb_2"~"Classe C", term =="classe_cb_3"~"Classe DE", term =="grau_instrucao_2"~"Fundamental", term =="grau_instrucao_3"~"Médio", term =="grau_instrucao_4"~"Superior", term =="c5_dispositivos_2"~"Só celular", term =="c5_dispositivos_3"~"Ambos dispositivos",str_detect(term, "renda_familiar") ~str_c("Renda ", str_extract(term, "\\d+$")),TRUE~ term ) ) %>%select(Variável = term, Modelo = modelo, Coeficiente = coef_fmt) %>%pivot_wider(names_from = Modelo, values_from = Coeficiente) %>% knitr::kable()
Tabela 7: Coeficientes das variáveis-chave nos 3 modelos pooled
Figura 8: Comparação dos coeficientes-chave entre os 3 modelos pooled
Os coeficientes das variáveis sociodemográficas são notavelmente estáveis entre os 3 modelos pooled. A inclusão do ano (seja como categórica ou contínua) não altera substancialmente os efeitos das variáveis-chave — o que confirma que esses preditores são robustos e não estão confundidos com tendências temporais.
Figura 9: Efeito de cada ano sobre o uso de e-gov, controlando por todas as variáveis sociodemográficas
Este gráfico responde a uma pergunta que o estudo de 2019 não podia formular: controlando por todas as variáveis sociodemográficas, há anos em que o uso de e-gov é sistematicamente maior ou menor?
Os anos 2019, 2021, 2022, 2023, 2025 apresentam efeito positivo significativo em relação ao ano-referência, indicando que — mesmo controlando por idade, renda, escolaridade e demais variáveis — houve maior propensão ao uso de e-gov nesses períodos. Esse efeito temporal residual pode ser atribuído abdutivamente a fatores não capturados no modelo: expansão da oferta de serviços digitais (gov.br, Pix, CNH digital), campanhas de digitalização, ou efeitos da pandemia sobre hábitos de interação com o governo.
Já os anos 2018, 2024 mostram efeito negativo significativo, sugerindo que a propensão ao uso foi menor do que o esperado pelas características sociodemográficas. O padrão não-linear das dummies de ano (com picos e vales) reforça que a tendência de uso de e-gov não é monotônica — há ciclos que merecem investigação com dados contextuais (oferta de serviços, eleições, crises econômicas).
A magnitude do efeito mais forte (2023: β = 0,653) é comparável ao coeficiente da PEA no modelo individual, o que mostra que o contexto temporal tem peso equivalente a uma variável sociodemográfica relevante. Essa é uma contribuição original da análise longitudinal que não era possível com o recorte transversal de 2019.
8.10 Linha de base: modelo pooled 2021-2025 (vars do artigo)
Antes de introduzir as extensões da Seção 6, este bloco apresenta o modelo-base: o mesmo conjunto de variáveis de Vargas et al. (2021), ajustado sobre o pooled 2021-2025 com o ano tratado como variável contínua (centralizada em 2021). Essa parametrização permite comparar, na sequência, o ganho de poder preditivo obtido com a adição das variáveis de uso digital selecionadas pelo screening universal.
Figura 10: Comparação dos coeficientes-chave: período completo (2015-2025) vs pós-pandemia (2021-2025)
NotaModelo 2021-2025
N = 69612 | Accuracy = 0.715 | AUC = 0.7664
O gráfico acima compara os coeficientes do modelo com ano contínuo para o período completo (2015-2025) e o período pós-pandemia (2021-2025). Diferenças entre os períodos indicam mudanças estruturais nos determinantes do uso de e-gov após a pandemia.
9 Determinantes do uso de e-gov no pós-pandemia (2021-2025)
Uma vez estabelecida a estabilidade longitudinal do modelo original e apresentada a linha de base para 2021-2025 na seção anterior, este bloco constitui o eixo principal da análise: quais características dos usuários de internet explicam o uso de serviços de governo eletrônico no período pós-pandemia. O modelo logístico de Vargas et al. (2021) é comparado com extensões em duas dimensões: (i) conjunto de variáveis, o do artigo original (7 preditores) versus o conjunto ampliado com 16 variáveis de intensidade de uso digital selecionadas por screening universal; e (ii) classe de modelo, regressão logística versus árvore de decisão versus random forest. Todas as combinações são avaliadas sobre o mesmo N e as mesmas folds de validação cruzada, o que isola o efeito de cada dimensão. O desfecho é o uso de e-gov nos 12 meses anteriores à coleta, codificado como fator com “Sim” (usa e-gov) como classe positiva.
O treino é executado em script separado (fit_ml.R) e carregado aqui via RDS; a validação cruzada com random forest é computacionalmente intensiva. Para recalcular: Rscript fit_ml.R.
Carregar modelos treinados (dados/ml_results.rds)
ml_rds <-"dados/ml_results.rds"if (!file.exists(ml_rds)) {stop("dados/ml_results.rds não encontrado. Rode 'Rscript fit_ml.R' antes de renderizar o qmd.")}ml <-readRDS(ml_rds)modelo_glm_orig <- ml$modelos$glm_origmodelo_glm_exp <- ml$modelos$glm_expmodelo_tree <- ml$modelos$treemodelo_rf_orig <- ml$modelos$rf_origmodelo_rf_exp <- ml$modelos$rf_exp# Aliases de compatibilidade — o GLM e o RF "principais" são as versões expandidasmodelo_glm <- modelo_glm_expmodelo_rf <- modelo_rf_expdf_ml <- ml$df_expresultados_ml <- ml$resamplesresumo_ml <- ml$resumovars_art_ml <- ml$vars_artvars_extra_ml <- ml$vars_extracat("ML carregado de", ml_rds,"| treinado em", format(ml$meta$timestamp),"| N =", ml$meta$N, "\n")
ML carregado de dados/ml_results.rds | treinado em 2026-04-22 17:07:04 | N = 68933
9.1 Comparação de desempenho
9.2 Screening de variáveis universais
Para ampliar o modelo sem comprometer a consistência longitudinal, o script explora_variaveis_full.R faz um screening univariado sobre 76 variáveis presentes em todas as 10 edições da TIC Domicílios (após harmonização). Cada candidata é adicionada ao modelo logístico base (vars do artigo) e medimos o ganho de AUC no pooled 2021–2025.
AUC base (só vars do artigo, N ≈ 70 mil): ≈ 0,76.
9.2.1 Endogeneidade (excluídas)
Três variáveis do top ranking foram excluídas por sobreposição conceitual com o outcome (uso de e-gov):
Variável
Conteúdo
ΔAUC
Por que é endógena
C8_F
Buscar informações em sites de governo
+0,034
É e-gov por definição
C8_G
Serviços públicos / pagar taxas online
+0,026
É o próprio outcome
C8_H
Consultas, pagamentos, transações financeiras
+0,021
Pode incluir pagamentos a órgãos públicos
9.2.2 Top variáveis legítimas (selecionadas)
Dezesseis variáveis de intensidade e variedade de uso digital — cada uma soma +0,015 a +0,040 de AUC isoladamente. Agrupadas:
Atividades de internet (C8_A/B/D/E): produtos, saúde, emprego, enciclopédia
Uso do celular (J2_L/J/G/K): busca de informação, páginas, mapas, apps
Mídia e educação (C9_C/D, C10_A/C/D): vídeos, notícias, cursos, estudo próprio
Engajamento (C11_A, C7_A, B1): compartilhar, email, uso de computador
Interpretação: quem usa a internet para múltiplas finalidades tem probabilidade maior de usar e-gov. É um padrão de intensidade, não de conteúdo governamental.
9.3 Matriz 2×2 (vars × modelo)
Para separar o efeito do conjunto de variáveis do efeito do modelo, quatro combinações são treinadas compartilhando as mesmas folds e o mesmo N (drop_na sobre o superset, N ≈ 68 mil):
Ver código
resumo_ml %>%transmute(Modelo = modelo, Variáveis =if_else(vars =="artigo", "Artigo (7)","Artigo + 16 de uso digital"), N, AUC,`Recall (Sens)`= Sens,`Precisão`= Prec, F1,`Espec.`= Spec ) %>% knitr::kable(format.args =list(big.mark ="."))
ML sozinho não ajuda: RF vs GLM sobre as vars originais → ΔAUC = +0.0026. Modelos mais flexíveis não capturam padrões não-lineares além do que a logística já captura.
As novas variáveis é que elevam o AUC: ΔAUC = +0.0634 (GLM) / +0.0600 (RF). O ganho vem do conjunto de preditores, não da classe de modelo.
Logística expandida ≈ RF expandido (AUC ≈ 0.831): o problema é aproximadamente linear no espaço ampliado — a logística com vars estendidas é suficiente por parsimônia.
Desempenho preditivo substancial: o GLM Expandido atinge recall = 83.6% e precisão = 80.3% para usuários de e-gov (F1 = 0.819), acima do patamar de 80% em ambas as métricas. A convenção “positivo = usa e-gov” é explícita: o twoClassSummary do caret usa por default o primeiro nível do fator como positivo, o que pode inverter a leitura se não for fixado.
9.4 Coeficientes do GLM Expandido
Os coeficientes abaixo vêm da logística expandida — o modelo que atinge o maior F1 e AUC combinando todas as variáveis (artigo + 16 do screening). Como o GLM ≈ RF em AUC, esses log-odds resumem o modelo preditivo inteiro.
Ver código
fit_glm_exp <- modelo_glm_exp$finalModelrotular_termo <-function(x) { x <-str_replace(x, "^RENDA_FAMILIAR", "Renda faixa ") x <-str_replace(x, "^CLASSE_CB1$", "Classe A") x <-str_replace(x, "^CLASSE_CB2$", "Classe B") x <-str_replace(x, "^CLASSE_CB3$", "Classe C") x <-str_replace(x, "^CLASSE_CB4$", "Classe DE") x <-str_replace(x, "^GRAU_INSTRUCAO1$", "Sem instrução") x <-str_replace(x, "^GRAU_INSTRUCAO2$", "Fundamental") x <-str_replace(x, "^GRAU_INSTRUCAO3$", "Médio") x <-str_replace(x, "^GRAU_INSTRUCAO4$", "Superior") x <-str_replace(x, "^C5_DISPOSITIVOS1$", "Só computador") x <-str_replace(x, "^C5_DISPOSITIVOS2$", "Só celular") x <-str_replace(x, "^C5_DISPOSITIVOS3$", "Ambos") x <-str_replace(x, "^C5_DISPOSITIVOS4$", "Nenhum") x}broom::tidy(fit_glm_exp, conf.int =TRUE, exponentiate =FALSE) %>%mutate(OR =exp(estimate),OR_low =exp(conf.low),OR_high =exp(conf.high),sig =case_when( p.value <0.001~"***", p.value <0.01~"**", p.value <0.05~"*", p.value <0.1~".", TRUE~""), Variável =rotular_termo(term) ) %>%arrange(desc(abs(estimate))) %>%transmute( Variável,Coef =round(estimate, 3),EP =round(std.error, 3),z =round(statistic, 2),`p-valor`=format.pval(p.value, digits =2),Sig = sig,OR =round(OR, 3),`IC 95%`=sprintf("[%.3f; %.3f]", OR_low, OR_high) ) %>% knitr::kable()
Tabela 10: Coeficientes do GLM Expandido (CV 5-fold, 2021-2025) | OR = razão de chances
Figura 11: Odds ratios das variáveis significativas no GLM Expandido (eixo x em log)
Leitura dos coeficientes. Entre as 16 variáveis de uso digital do screening, 16 são estatisticamente significativas a \(p < 0{,}05\), das quais 1 têm efeito positivo sobre a probabilidade de uso de e-gov. O maior efeito isolado é o de PEA (OR = 1.27), seguido de perto por C9_C (OR = 1.14) e Renda faixa 2 (OR = 0.95). O efeito de e-commerce (H2) permanece positivo e significativo (OR = 0.58), consistente com a interpretação de Vargas et al. (2021) de familiaridade com transações digitais como facilitador do uso de e-gov. Entre as variáveis do artigo original, após a factorização de CLASSE_CB, GRAU_INSTRUCAO e C5_DISPOSITIVOS, os efeitos alinham-se ao esperado na literatura: maior escolaridade e uso simultâneo de computador e celular associam-se a maior probabilidade de uso de e-gov.
9.5 Holdout temporal (2025 como teste externo)
Para testar a capacidade de previsão fora do período de treino (compatível com a parametrização de ano como variável contínua), os modelos são treinados em 2021-2024 e avaliados em 2025 como dado nunca visto:
Tabela 11: Holdout temporal: treino 2021-2024, teste 2025 | positivo = usa e-gov
Modelo
AUC
Recall
Precisão
F1
Espec.
GLM Original
0.7720
0.6486
0.8410
0.7324
0.7595
GLM Expandido
0.8354
0.6802
0.8822
0.7681
0.8218
RF Original
0.7666
0.6530
0.8328
0.7320
0.7429
RF Expandido
0.8293
0.7256
0.8634
0.7885
0.7748
O GLM Expandido avaliado em 2025 de forma completamente cega (treinado apenas com 2021-2024) atinge AUC = 0.8354, contra 0.8306 no CV 5-fold intra-período (ΔAUC = +0.0048). A degradação é desprezível, o que sustenta empiricamente o uso do ano como variável contínua: o padrão de determinantes identificado em 2021-2024 se transfere sem perda relevante para 2025, viabilizando projeções de curto prazo com o mesmo modelo.
Figura 12: Comparação de desempenho dos 5 modelos (CV 5-fold, folds fixos)
9.7 Árvore de decisão (vars do artigo)
Ver código
rpart.plot(modelo_tree$finalModel,type =4, extra =106,under =TRUE, fallen.leaves =TRUE,roundint =FALSE,main ="Árvore de decisão — Uso de E-gov (2021-2025, vars do artigo)")
Figura 13: Árvore de decisão sobre as variáveis do artigo
9.8 Importância das variáveis (RF expandido)
Ver código
imp_rf <-varImp(modelo_rf_exp)plot(imp_rf, top =20,main ="Importância das variáveis — Random Forest expandido")
Figura 14: Importância das variáveis no Random Forest expandido
9.9 Habilidades digitais (sub-modelo 2022-2025)
As variáveis I1A_* (habilidades digitais autorreportadas: baixar arquivos, instalar programas, transferir dados, usar planilhas, entre outras) estão disponíveis apenas a partir de 2022 e permitem testar em que medida a proficiência digital autoavaliada adiciona poder preditivo além das variáveis de intensidade de uso. O script fit_i1a.R treina GLM e RF em 2022-2025, com e sem as I1A_*, mantendo folds pareados para comparação direta.
Tabela 13: Sub-modelo 2022-2025 com e sem habilidades digitais (I1A_*)
Modelo
N
AUC
Recall
Precisão
F1
Espec.
GLM sem I1A_*
56.198
0.8312
0.8299
0.8006
0.8150
0.6597
GLM com I1A_*
56.198
0.8394
0.8200
0.8108
0.8154
0.6850
RF sem I1A_*
56.198
0.8315
0.8521
0.7904
0.8201
0.6279
RF com I1A_*
56.198
0.8417
0.8525
0.7936
0.8220
0.6350
Impacto das habilidades digitais no AUC: GLM Δ = +0.0082, RF Δ = +0.0102. Há ganho preditivo não desprezível com a inclusão das I1A_*, indicando que a proficiência digital autorreportada contém informação residual sobre o uso de e-gov além da intensidade de uso observada.
9.10 Sensibilidade: pesos amostrais (svyglm)
A TIC Domicílios é uma pesquisa com desenho amostral complexo. A análise principal deste relatório trata cada observação com peso unitário, por simplicidade de ajuste e compatibilidade com os algoritmos usados na matriz 2×2. Esta seção apresenta uma análise de sensibilidade em que o modelo logístico é reestimado via survey::svyglm, incorporando os pesos PESO fornecidos pelo Cetic.br, com o objetivo de verificar se os coeficientes estimados se mantêm estáveis sob ponderação.
Tabela 15: Coeficientes-chave: comparação não-ponderado vs ponderado (modelo Expandido)
Variável
Coef (não-pond.)
p (não-pond.)
Coef (pond.)
p (pond.)
Δ
IDADE
0.001
0.09247
0.005
0.03874
0.004
PEA
-0.239
< 2e-16
-0.277
0.00037
-0.038
H2
0.541
< 2e-16
0.439
3.0e-07
-0.102
RENDA_FAMILIAR2
0.056
0.01880
0.055
0.47273
0.000
RENDA_FAMILIAR3
0.193
5.8e-10
0.184
0.04968
-0.009
RENDA_FAMILIAR4
0.282
2.8e-12
0.319
0.00512
0.036
RENDA_FAMILIAR5
0.322
1.1e-07
-0.099
0.72586
-0.421
RENDA_FAMILIAR6
0.498
7.2e-07
0.630
0.00904
0.132
RENDA_FAMILIAR7
0.053
0.43819
0.082
0.75517
0.030
CLASSE_CB2
0.159
0.32180
0.008
0.97945
-0.150
CLASSE_CB3
0.107
0.50307
-0.231
0.50692
-0.339
CLASSE_CB4
0.061
0.70428
-0.255
0.46981
-0.316
GRAU_INSTRUCAO2
0.150
0.00079
0.141
0.25265
-0.008
GRAU_INSTRUCAO3
0.116
0.01309
0.174
0.18995
0.058
GRAU_INSTRUCAO4
0.065
0.26131
0.058
0.71912
-0.007
C5_DISPOSITIVOS2
-0.313
0.28298
0.489
0.53853
0.802
C5_DISPOSITIVOS3
-0.302
0.30126
0.535
0.50136
0.837
C5_DISPOSITIVOS4
-0.837
0.05921
-0.176
0.84120
0.662
ano_num
-0.003
0.70404
-0.008
0.71707
-0.006
C8_A
0.134
1.4e-08
0.205
0.01619
0.071
C8_B
0.816
< 2e-16
0.793
< 2e-16
-0.024
C8_D
0.373
< 2e-16
0.410
0.00027
0.037
C8_E
0.169
1.3e-06
0.112
0.39464
-0.057
J2_L
0.334
< 2e-16
0.241
0.00666
-0.092
J2_J
0.168
6.7e-11
0.232
0.00619
0.063
J2_G
0.339
< 2e-16
0.313
0.00013
-0.025
J2_K
0.300
< 2e-16
0.351
1.6e-06
0.051
C9_D
0.236
< 2e-16
0.202
0.00883
-0.035
C9_C
-0.135
4.8e-09
-0.043
0.55392
0.092
C10_A
0.279
< 2e-16
0.292
0.00259
0.013
C10_C
0.586
< 2e-16
0.593
3.4e-06
0.008
C10_D
0.251
< 2e-16
0.230
0.01306
-0.021
C11_A
0.201
< 2e-16
0.284
0.00010
0.083
C7_A
0.183
< 2e-16
0.078
0.29404
-0.105
B1
0.167
3.6e-11
0.178
0.04607
0.010
As diferenças de coeficiente entre o GLM não-ponderado e o svyglm ponderado são, em média, de magnitude modesta: Δ mediano de 0.051 e Δ máximo de 0.837 em log-odds. Há sinais de instabilidade na magnitude de alguns coeficientes quando a ponderação é aplicada (AUC ponderado = 0.830, não-ponderado = 0.831). Embora a direção dos efeitos mais importantes se preserve, a versão ponderada deveria ser reportada em conjunto com a não-ponderada na apresentação formal dos resultados.
NotaSíntese
A extensão do conjunto de variáveis com indicadores de intensidade de uso digital eleva o AUC de 0.767 para 0.830 (ΔAUC = +0.063), tanto no GLM quanto no Random Forest. A coincidência entre GLM e RF no espaço expandido indica estrutura aproximadamente linear, o que permite apresentar a logística expandida como modelo interpretável sem perda preditiva em relação ao random forest. O holdout temporal de 2025 confirma que o modelo generaliza para fora do período de treino e a análise ponderada via svyglm mostra robustez dos coeficientes à escolha de ignorar o desenho amostral no ajuste principal.
10 Discussão
10.1 Evolução do uso de governo eletrônico
A proporção de uso de e-gov entre usuários de internet brasileiros (16+) apresentou oscilação entre 52,6% (2018) e 74,0% (2015) ao longo da década, sem tendência monotônica de crescimento. Os picos em 2023 e 2021 podem estar associados à digitalização acelerada durante e após a pandemia de COVID-19, enquanto os vales em 2018 e 2024 sugerem ciclos que merecem investigação aprofundada.
O valor elevado de 2015 (74,0%) deve ser interpretado com cautela, pois o N é substancialmente menor (2.632 vs 10–16 mil nos demais anos), resultado da ausência da variável C5_Dispositivos naquele ano e de muitos missings em Classe_CB2015.
10.2 Estabilidade do modelo
O AUC-ROC manteve-se notavelmente estável entre 0,7392 e 0,7810 ao longo de toda a série, demonstrando que o conjunto de variáveis proposto por Vargas et al. (2021) mantém poder preditivo consistente ao longo de uma década. Este é um resultado relevante: modelos sociodemográficos frequentemente perdem validade com o tempo, mas neste caso a estrutura se manteve robusta, o que autoriza o uso desse conjunto como linha de base para extensões.
10.3 Determinantes do uso de e-gov no pós-pandemia
A extensão do modelo de Vargas et al. (2021) com as 16 variáveis de intensidade de uso digital eleva o AUC de 0.767 (vars do artigo) para 0.831 no pooled 2021-2025 (N = 68.933, CV 5-fold pareado), um ganho de +0.063 em AUC. Nessa configuração, o modelo atinge recall de 83.6% e precisão de 80.3% para identificar usuários de e-gov, com F1 = 0.819, situando-se dentro do patamar de 80 a 90% considerado como referência de desempenho aplicado.
Dois resultados metodológicos destacam-se dessa comparação. Primeiro, a substituição da logística pelo random forest sobre as mesmas variáveis do artigo original altera o AUC em apenas +0.003. Algoritmos não-lineares, isoladamente, não extraem informação adicional do conjunto original de preditores. Segundo, no espaço ampliado, o random forest iguala a logística (AUC = 0.830 vs 0.831), indicando que a estrutura da relação entre os preditores e o uso de e-gov é aproximadamente linear uma vez que o conjunto relevante de variáveis esteja presente. O ganho preditivo total vem, portanto, das variáveis e não do algoritmo.
A validação preditiva no holdout temporal (treino 2021-2024, teste 2025 cego) reforça esse achado: o GLM Expandido atinge AUC = 0.835 em 2025, com ΔAUC = +0.005 em relação ao desempenho intra-período. A degradação é desprezível, o que sustenta empiricamente a parametrização do ano como variável contínua: o padrão de determinantes identificado em 2021-2024 se transfere sem perda para 2025, habilitando projeções de curto prazo com o mesmo modelo.
Substantivamente, os coeficientes do GLM Expandido apontam para uma leitura ampliada do conceito de familiaridade digital originalmente sugerido pelo artigo de 2019. Enquanto naquele modelo o e-commerce (variável H2) concentrava o efeito associado a transações digitais, o modelo estendido distribui a explicação entre múltiplas formas de uso intensivo da internet, com destaque para busca de informação sobre saúde, busca de cursos, uso de mapas e aplicativos no celular, e compartilhamento de conteúdo. O padrão sugere que a probabilidade de uso de e-gov aumenta com a amplitude e a variedade de atividades digitais de uma pessoa, e não apenas com sua disposição específica a transacionar.
10.4 Habilidades digitais como mecanismo complementar (2022-2025)
A análise restrita ao período 2022-2025 (em que as variáveis de habilidades digitais autorreportadas, I1A_*, estão disponíveis) produziu ganhos de AUC de +0.008 na logística e +0.010 no random forest em relação aos respectivos modelos sem essas variáveis. O ganho é modesto mas direcionalmente consistente com a hipótese de que habilidades digitais se associam positivamente ao uso de e-gov. As I1A_* reforçam a interpretação do modelo principal sem, contudo, alterá-la qualitativamente.
10.5 Mudanças nos preditores
A análise longitudinal revela que enquanto alguns preditores são altamente estáveis (e-commerce, idade), outros apresentam variação temporal significativa:
A PEA perdeu força preditiva ao longo dos anos (de 0,526 em 2015 para 0,430 em 2025), possivelmente refletindo a expansão de serviços de e-gov voltados a populações economicamente inativas (programas sociais digitalizados)
O efeito do grau de instrução manteve-se forte, reforçando que a educação é uma barreira persistente ao uso de e-gov
O teste de razão de verossimilhança do modelo pooled confirma que há variação temporal significativa além das variáveis sociodemográficas (LR = 2172.2, p < 0,001)
10.6 Efeito da pandemia
Embora o módulo G não tenha sido coletado em 2020, os dados de 2021 mostram uma proporção de uso elevada (67,1%), sugerindo que a pandemia pode ter acelerado a adoção de serviços digitais do governo. Os coeficientes do modelo em 2021 não apresentaram mudanças abruptas, indicando que a estrutura dos determinantes socioeconômicos do uso de e-gov não se alterou qualitativamente — apenas o nível geral de adoção aumentou.
11 Limitações
2020 excluído: o módulo G (governo eletrônico) não foi coletado na edição COVID-19 da TIC Domicílios — série com 10 edições em vez de 11
2015 com N reduzido: ausência de C5_Dispositivos e muitos missings em Classe_CB2015 reduziram o N para 2.632 (vs 16.373 em 2025)
Grau de instrução em 2024–2025: variável agregada mudou de GRAU_INSTRUCAO_2 para GRAU_INST_1 — ambas com 4 categorias equivalentes (Analfabeto/Fundamental/Médio/Superior)
C5_Dispositivos em 2024–2025: novo nível 4 (“Nenhum dispositivo”) filtrado para manter comparabilidade com os 3 níveis originais
Critério Brasil: possíveis ajustes menores na classificação da ABEP em 2019 e 2022 podem afetar a comparabilidade da variável de classe econômica
2025 inclui G1_H: nova questão sobre serviços de Justiça incluída no G1_AGREG oficial do Cetic.br — pode inflacionar levemente a proporção de uso em relação aos anos anteriores
Pesos amostrais: esta análise não utiliza pesos amostrais (design complexo), o que pode afetar a generalização para a população brasileira
Versão dos microdados: utilizamos a v1.1 de 2019 (única disponível no Cetic.br em abril/2026), mesma base de 20.536 observações utilizada no artigo original
12 Referências
Vargas, L.C.M., Macadar, M.A., Wanke, P.F., Antunes, J.J.M. (2021). Serviços de governo eletrônico no Brasil: uma análise sobre fatores de impacto na decisão de uso do cidadão. Cadernos EBAPE.BR, 19(Ed. Esp.), 792-810. DOI: 10.1590/1679-395120200206