"Quem Lê Quadrinhos?"¶

O objetivo desta apresentação é explorar os resultados da "Pesquisa de Leitores de Quadrinhos", organizada anualmente pelo quadrinista Rapha Pinheiro.


Não pretendo me preocupar com detalhes técnicos - como por exemplo eventuais vieses de amostragem. O espírito aqui é o de usar algumas ideias de ciência de dados de forma intuitiva em busca de insights complementares aos das análises mais gráficas.

Tratamento de Dados¶

Unificando Colunas¶

A primeira coisa que fiz foi tentar compilar os resultados de 2018-2020 em uma tabela só.

A pesquisa evoluiu no tempo, perdendo algumas questões e ganhando outras. Além disso algumas perguntas ficaram mais abrangentes.

Por exemplo a pergunta sobre a influência de indicação de youtubers da pesquisa de 2018 abre o leque de mídias no ano seguinte:

você costuma comprar os quadrinhos indicados pelos youtubers?
449 Sim
3 Não
1533 Sim
você costuma comprar quadrinhos indicados por youtubers/podcasters ou figuras da mídia especializada?
1266 Sim
3324 Não
1161 Sim

Outro exemplo de necessidade de tratamento é o de perguntas conceitualmente idênticas, mas escritas de forma quase idênticas em diferentes pesquisas, como é o caso da questão de estado de origem:

qual seu estado de origem?
356 Panará (PR)
1603 São Paulo (SP)
368 Pernambuco (PE)
qual o seu estado de origem?
3183 São Paulo (SP)
2260 São Paulo (SP)
1478 São Paulo (SP)

Pra lidar com isso escolhi renomear todas as colunas de modo que perguntas parecidas sejam identificadas por um mesmo rótulo.

A princípio essa é uma boa abordagem, mas tem alguns problemas incontornáveis - por exemplo como é o caso das perguntas que ficam mais abrangentes. Mas entre a união de conceitos ou não usar a informação, escolhi a união.


Ao longo da apresentação eu tento deixar clara a relação entre os nomes antigos e os novos, mas em todo caso, para mais detalhes sobre isso por favor consulte o notebook "0_tratamento.ipynb".

Perfil¶

Idade¶

Para os anos de 2019 e 2020 a idade é respondida como número - em contraste a 2018, onde é respondido como faixa de idade.

A resposta como número é interessante pela possibilidade de cáculo de estatísticas mais simples como média e desvio padrão:

count mean std min 25% 50% 75% max
perfil_idade 5692.0 27.586 9.022 10.0 21.0 26.0 33.0 68.0

Nas distribuições de idades em formato de número a gente vê o pico próximo de 20 anos, mas ao agrupar os valores de idade em faixas a concentração entre 18 e 35 anos fica mais evidente, dando a sensação de que "jovens jovens" e "jovens maduros" têm a mesma "importância" em termos de volume.

legenda