O que torna um livro
bem-sucedido?

Um estudo sobre literatura
da língua portuguesa

By Mariana Silva, Clarisse Scofield & Bruna Campos

Usage data

A indústria do livro passou por mais mudanças significativas na última década do que talvez nunca antes na história editorial. Especialistas garantem que esse processo de transformação é apenas uma amostra das muitas mudanças que estão por vir. Especificamente, o uso de informações relacionadas ao consumo de livros será uma ferramenta crucial para a assertividade na tomada de decisões, permitindo traçar ações mais objetivas a partir desses dados de inteligência e extrair insights significativos para melhores perspectivas de negócios. Se as previsões esperadas realmente se concretizarem, quem conseguir combinar a experiência humana com informações extraídas de dados digitais complexos terá o que é preciso para enfrentar as próximas mudanças.

Não é surpresa que as forças motrizes que influenciam o sucesso do livro continuem a ser o assunto principal de diferentes estudos, como estilos de escrita [1], resenhas online [2] e críticas de livros [3]. No entanto, entender como esses fatores moldam o sucesso dos livros têm recebido muito menos atenção [4]. Quando se trata de estudos voltados para a literatura de língua portuguesa, a lacuna é ainda maior. Em um contexto tão relevante, este trabalho visa preencher as lacunas mencionadas, analisando o que faz um livro ter sucesso no cenário da Literatura Portuguesa.



Dados

PPORTAL DOI

Public domain Portuguese-language literature Dataset

Neste projeto, usaremos o PPORTAL, um dataset aberto de literatura de língua portuguesa de domínio público. O PPORTAL é composto por três bibliotecas digitais para obras de domínio público principalmente do Brasil e Portugal: Domínio Público, Projecto Adamastor, e Biblioteca Digital de Literatura de Países Lusófonos (BLPL). Tais informações heterogêneas foram integradas usando a API Goodreads e uma abordagem de correspondência difusa, que resulta em 2.388 obras exclusivas. Os IDs das obras no conjunto de dados integrado permitem coletar informações adicionais de elementos essenciais do ecossistema da indústria do livro: obras, autores, leitores e resenhas.

Usage data

Neste projeto, pretendemos analisar possíveis fatores intrínsecos e extrínsecos que influenciam o sucesso de obras literárias em português. Através de uma abordagem orientada a dados e utilizando visualizações gráficas, pretendemos descrever e mapear interações entre diferentes variáveis do ecossistema de publicação de livros para gerar percepções importantes sobre o que faz uma obra literária alcançar o sucesso. Em particular, buscamos responder questões como:


  • O que torna um livro reconhecido?
  • O que torna um livro popular?
  • O que torna um livro interessante?

Perspectivas de Sucesso

Pesquisadores descrevem o sucesso de um livro de diferentes pontos de vista, incluindo listas oficiais de best-sellers [4], número de resenhas online [2], contagem de downloads [1], entre outros. Tal diversidade é resultado da natureza subjetiva e abstrata do sucesso. De fato, o que pode parecer bem-sucedido para algumas pessoas pode não ser bem-sucedido para outras. Portanto, propor uma definição única e objetiva é uma tarefa desafiadora.


Além dos desafios, considerar apenas um aspecto para resumir o sucesso de um livro pode levar à perda de informações sobre sua natureza abrangente. Assim, para incorporar plenamente os critérios de sucesso do livro, propomos uma definição mais flexível baseada em três perspectivas distintas: reconhecimento, popularidade e interesse. Como resultado, podemos examinar mais profundamente os aspectos intrínsecos do que torna um livro bem-sucedido. Descrevemos brevemente e indicamos as medidas de sucesso de cada perspectiva proposta a seguir.

Refere-se à importância de uma obra ser considerada e avaliada pelos leitores. Pode ser medido através da média de avaliações de uma obra.

Refere-se ao quanto uma obra foi lida e avaliada pelos usuários de forma textual. Pode ser medida através do total de resenhas textuais e avaliações de uma obra.

Refere-se ao quanto os leitores consideram aquela obra como favorita, se estão lendo no momento ou pretendem lê-la.

Análises Preliminares

A partir das três perspectivas, realizamos uma análise preliminar para explorar se existe algum fator que influencia alguma perspectiva de sucesso. Especificamente, queremos responder as três perguntas de pesquisa citadas anteriormente. Para isso, avaliamos os seguintes fatores.




No geral, as três perspectivas seguem a mesma tendência padrão, porém com a quantidade de valores dos fatores variando entre elas. Dos fatores analisados, os mais relevantes, em termos de variação foram:


Em relação ao formato do livro, não houveram grandes variações.

Clusterização

Para investigar melhor cada perspectiva, utilizamos um algoritmo de clusterização para agrupar as obras em relação ao nível de sucesso. Aqui, nós usamos um algoritmo de agrupamento difuso (i.e., Fuzzy C-means clustering), onde cada ponto de dados é atribuído a uma probabilidade de pertencer a um determinado grupo (cluster). Esse grau de pertinência é determinado através da proximidade dos centros dos clusters. Escolhemos tal abordagem para que o sucesso de um livro possa ser definido através das três perspectivas, ao invés de apenas uma só dimensão.


No total, foram identificados três clusters. O perfil de cada um é plotado através de um radar plot, a seguir. Nesta visualização, cada polígno caracteriza um cluster de acordo com os níveis de sucesso médio. É possível notar que cada cluster apresenta um nível diferente de sucesso, no geral:


  • Cluster 1: Alto
  • Cluster 2: Baixo
  • Cluster 3: Médio

Análise dos Níveis de Sucesso

Após o agrupamento das obras em relação ao nível de sucesso, exploramos alguns dos fatores que se mostraram mais relevantes nas análises preliminares. Inicialmente, utilizando o grau de pertinência retornado pelo algoritmo de clusterização, analisamos quais são os gêneros literários mais frequentes em média para cada cluster. Para visualizar, utilizamos um mapa de calor, muito comum para representar dados multivalorados.


Relação entre os gêneros e níveis de sucesso

Os gêneros são representados em linhas e cada coluna representa um cluster. A variação de cores indica o grau médio de pertinência de cada cluster. Células verde escuro indicam um grau maior de pertinência e células mais claras, um grau mais baixo.


Análise do gráfico

Para o nível de sucesso alto, representado pelo Cluster 1, temos que os gêneros Religion, Academic, Sci-Fi e Self-help são os que mais se destacam. Indicando que obras de tais gêneros são, em média, mais reconhecidos, populares e mais interessantes. Em relação ao nível baixo, representado pelo Cluster 2, os gêneros Childrens, Politics e Travels são os mais frequentes. Ou seja, são esses gêneros que possuem um nível de sucesso mais baixo, em média. Por fim, para o nível médio, representado pelo Cluster 3, os gêneros Design, Science, Humor e Cultural são os que mais se destacam.




Relação entre o tamanho do livro e níveis de sucesso

Além dos gêneros literários, também analisamos o tamanho médio das obras em relação ao nível de sucesso. O tamanho dos livros é representado em linhas e cada coluna representa um cluster (i.e., nível de sucesso). Novamenta, a variação de cores indica o grau médio de pertinência de cada cluster. Células laranja escuro indicam um grau maior de pertinência e células mais claras, um grau mais baixo.


Análise do gráfico

Para os níveis de sucesso médio e alto, representados pelos Clusters 3 e 1, os resultados não indicaram uma predominância em relação ao tamanho dos livros, em média. Ou seja, tal fator pode não influenciar no alcance de sucesso literário. No entanto, em relação ao nível baixo, representado pelo Cluster 2, há uma predominância para livros longos/médios, em média. Isso pode indicar que livros muito longos não são muito reconhecidos, populares e interessantes.




Relação entre o ano de publicação e níveis de sucesso

Até então, havíamos analisado apenas variáveis categóricas. Dentre as nossas variáveis numéricas, através de uma análise preliminar, identificamos que o ano de publicação das obras pode ser um fator importante na definição de sucesso. Portanto, também analisamos tal fator, considerando os três níveis de sucesso identificados na clusterização. Para visualizar, utilizamos gráficos de dispersão, investigando se a variação dos anos de publicação está correlacionada ao grau de pertinência das obras, para cada cluster (i.e., nível de sucesso).

Análise do gráfico

Para os niveis de sucesso médio e alto, representados pelos Clusters 3 e 1, os resultados indicam que uma correlação negativa, onde quanto maior o grau de pertinência, menor é o ano de publicação dos livros. Tal resultado demonstra que obras mais antigas recebem maior reconhecimento, interesse e popularidade. De forma contrária, no nível de sucesso baixo, existe uma correlação positiva. Ou seja, quanto maior o grau de pertinência do cluster, maior o ano de publicação, indicando que livros mais novos não são tão populares. No geral, os resultados foram como esperado, visto que livros mais novos possuem um tempo menor para que os leitores possam avaliá-los. Assim, as medidas de sucesso que consideramos penalizam tais livros lançados mais tarde.




Padrões multivalorados

Para finalizar as anaálises de sucesso, investigamos padrões multivalorados, utilizando os principais fatores do nosso conjunto de dados. Para isso, utilizamos as coordenadas paralelas, onde cada coluna representa uma variável e a conexão entre elas revela o padrão multivalorado.

Análise do gráfico

Para o nível de sucesso alto, é possível observar uma tendência em gêneros de ficção, no formato físico e mais curtos. Em relação à decada de publicação, há uma predominância para décadas mais antigas.


Análise do gráfico

Para o nível de sucesso baixo, é possível observar uma tendência em gêneros de não-icção, no formato físico e mais longos. Em relação à decada de publicação, há uma predominância para décadas mais recentes.


Análise do gráfico

Para o nível de sucesso médio, é possível observar uma tendência melhor distribuída entre as categorias das variáveis.


📚