O objetivo desta apresentação é explorar os resultados da "Pesquisa de Leitores de Quadrinhos", organizada anualmente pelo quadrinista Rapha Pinheiro.

Não pretendo me preocupar com detalhes técnicos - como por exemplo eventuais vieses de amostragem. O espírito aqui é o de usar algumas ideias de ciência de dados de forma intuitiva em busca de insights complementares aos das análises mais gráficas.
A primeira coisa que fiz foi tentar compilar os resultados de 2018-2020 em uma tabela só.
A pesquisa evoluiu no tempo, perdendo algumas questões e ganhando outras. Além disso algumas perguntas ficaram mais abrangentes.
Por exemplo a pergunta sobre a influência de indicação de youtubers da pesquisa de 2018 abre o leque de mídias no ano seguinte:
| você costuma comprar os quadrinhos indicados pelos youtubers? | |
|---|---|
| 449 | Sim |
| 3 | Não |
| 1533 | Sim |
| você costuma comprar quadrinhos indicados por youtubers/podcasters ou figuras da mídia especializada? | |
|---|---|
| 1266 | Sim |
| 3324 | Não |
| 1161 | Sim |
Outro exemplo de necessidade de tratamento é o de perguntas conceitualmente idênticas, mas escritas de forma quase idênticas em diferentes pesquisas, como é o caso da questão de estado de origem:
| qual seu estado de origem? | |
|---|---|
| 356 | Panará (PR) |
| 1603 | São Paulo (SP) |
| 368 | Pernambuco (PE) |
| qual o seu estado de origem? | |
|---|---|
| 3183 | São Paulo (SP) |
| 2260 | São Paulo (SP) |
| 1478 | São Paulo (SP) |
Pra lidar com isso escolhi renomear todas as colunas de modo que perguntas parecidas sejam identificadas por um mesmo rótulo.
A princípio essa é uma boa abordagem, mas tem alguns problemas incontornáveis - por exemplo como é o caso das perguntas que ficam mais abrangentes. Mas entre a união de conceitos ou não usar a informação, escolhi a união.
Ao longo da apresentação eu tento deixar clara a relação entre os nomes antigos e os novos, mas em todo caso, para mais detalhes sobre isso por favor consulte o notebook "0_tratamento.ipynb".
Para os anos de 2019 e 2020 a idade é respondida como número - em contraste a 2018, onde é respondido como faixa de idade.
A resposta como número é interessante pela possibilidade de cáculo de estatísticas mais simples como média e desvio padrão:
| count | mean | std | min | 25% | 50% | 75% | max | |
|---|---|---|---|---|---|---|---|---|
| perfil_idade | 5692.0 | 27.586 | 9.022 | 10.0 | 21.0 | 26.0 | 33.0 | 68.0 |
Nas distribuições de idades em formato de número a gente vê o pico próximo de 20 anos, mas ao agrupar os valores de idade em faixas a concentração entre 18 e 35 anos fica mais evidente, dando a sensação de que "jovens jovens" e "jovens maduros" têm a mesma "importância" em termos de volume.
