Quem precisa de crítica literária? Algoritmos já leem romances e conseguem analisar a estrutura de obras de ficção

Aristóteles escreveu na antiguidade um texto conhecido como Poética, ainda hoje um clássico da teoria literária. Na obra, Aristóteles trata de examinar a estrutura típica de grandes obras dramatúrgicas.

Por Marcelo de Araújo 

Aristóteles escreveu na antiguidade um texto conhecido como Poética, ainda hoje um clássico da teoria literária. Na obra, Aristóteles trata de examinar a estrutura típica de grandes obras dramatúrgicas. Quais são os elementos constitutivos de uma boa tragédia? Qual é a estrutura típica de uma narrativa trágica bem sucedida? A resposta que Aristóteles dá a essas perguntas exerce ainda hoje influência sobre a estrutura narrativa de muitos romances e roteiros para o cinema. Não é por acaso, aliás, que a Poética se tornou leitura obrigatória entre roteiristas e é adotada em muitos cursos de escrita criativa.

Aristóteles só foi capaz de identificar a estrutura narrativa típica de grandes obras dramatúrgicas porque ele conhecia praticamente todas as tragédias da antiguidade. No entanto, face à enorme quantidade de obras de ficção publicadas em nossos dias, ninguém mais pode ter a expectativa de ler um vasto conjunto de obras literárias na tentativa de identificar algumas estruturas narrativas comuns.

Não seria então possível delegarmos a máquinas a tarefa de “ler” obras literárias em nosso lugar? Uma máquina não poderia talvez identificar os “arcos emocionais” comuns a diversas obras literárias com mais precisão do que qualquer ser humano? Na verdade, isso já vem ocorrendo.

Medindo arcos emocionais

Em 2016, Andrew Reagan e colegas publicaram um artigo intitulado “Os arcos emocionais das histórias são dominados por seis formas básicas” [1]. Um algoritmo desenvolvido pelos pesquisadores, batizado de “Hedonometer”, analisou 1.327 obras literárias disponíveis no site do Projeto Gutenberg. Cada obra foi dividida em segmentos ou “janelas” de 10 mil palavras. Cada janela foi submetida então a uma “análise de sentimentos.” A análise consiste na avaliação quantitativa dos sentimentos que algumas palavras, que ocorrem nas janelas, tendem a provocar no leitor. Palavras como, por exemplo, “estupro” e “terrorista” tendem a provocar nas pessoas uma reação negativa, por oposição a palavras como “sorriso” ou “amor”.

O Hedonometer contém um dicionário com as 10 mil palavras mais frequentes no conjunto de obras a serem analisadas. A cada palavra do dicionário foi atribuído um valor que varia entre 1 e 9. Palavras que têm uma conotação negativa receberam um valor baixo, por oposição às palavras que têm uma conotação positiva. (O valor 5, intermediário entre 1 e 9, indica que a palavra é emocionalmente neutra, não desperta nenhum sentimento especial no leitor). Os valores foram atribuídos graças ao trabalho de milhares de pessoas recrutadas especialmente para essa tarefa. As três palavras que receberam a maior pontuação média foram, respectivamente, “riso”, “felicidade”, e “amor”. As três últimas palavras no ranking foram “estupro”, “suicídio”, e “terrorista” [2].

A ocorrência dessas palavras, em cada segmento de 10 mil palavras, permite ao Hedonometer avaliar a carga emocional predominante em cada segmento da obra, e retraçar as flutuações emotivas ao longo da obra como um todo. São essas flutuações emotivas que Reagan e colegas denominam de “arco emocional” da narrativa [3]. A análise de sentimento realizada pelo Hedonometer consiste na representação gráfica das flutuações emotivas ao longo de cada obra analisada. Segundo Reagan e colegas, é possível detectar, no conjunto das 1.327 obras analisadas, seis tipos básicos de arcos emocionais.

Uma história com final feliz, por exemplo, é marcada por um arco ascendente na parte final, diferentemente de narrativas com finais trágicos, que são marcadas por um arco emocional descendente. O artigo de Reagan e colegas, porém, não é o único trabalho recente que descreve o modo como algoritmos podem ser utilizados para “ler” grandes quantidades de textos literários com o objetivo de analisar certas estruturas comuns, inerentes a praticamente qualquer obra de ficção.

Detectando best-sellers

Em 2016, Jodie Archer e Matthew Jockers lançaram um livro chamado The Bestseller Code: Anatomy of the Blockbuster Novel, publicado no Brasil como O Segredo do Best-Seller (Astral Cultural, 2017). A dupla desenvolveu um programa, chamado “Bestseller-ometer”, na expectativa de poder identificar potenciais best-sellers. O programa “leu” mais de 20 mil romances buscando identificar características típicas dos títulos que entram para a lista de best-sellers do New York Times. A descrição técnica do programa aparece no último capítulo do livro. Mas o que me interessa aqui não é a descrição técnica do algoritmo, mas sim examinar algumas implicações que a difusão de programas como o “Hedonometer” e o “Bestseller-ometer” poderia ter para o mercado editorial e para a nossa compreensão acerca do conceito de “leitor.”

O número de manuscritos que editoras e agências literárias recebem todos os dias costuma ultrapassar bastante a capacidade que seus funcionários têm de ler. Histórias de livros que se tornaram sucessos literários, mas que foram inicialmente ignorados por várias editoras, se tornaram famosas. Mas isso geralmente ocorre, não porque os autores rejeitados sejam gênios incompreendidos, mas porque os profissionais do mercado simplesmente não conseguem dar conta do volume de leitura que recebem. Muitas editoras e agências literárias contratam leitores externos, que decidem quais manuscritos merecem ser avaliados para possível publicação.

Segundo Archer e Jockers, o Bestseller-ometer teria 80% de chance de detectar um manuscrito que tem o potencial para se tornar um bestseller. Se algoritmos desse tipo se tornarem correntes no mercado editorial, então, no futuro, os primeiros “leitores” de muitas obras de ficção não serão mais pessoas, mas máquinas que, para todos os efeitos, estarão realizando o mesmo tipo de atividade que os leitores contratados por editoras e agências literárias realizam.

Novos escritores, ávidos para publicar seu primeiro romance, talvez prefiram então buscar o aval de algoritmos ao invés de consultar escritores experientes ou críticos literários. Por outro lado, é possível também que muitos romances, que têm o potencial para se tornar um sucesso literário, sejam rejeitados com menos frequência, pois haverá um novo “leitor”, mais rápido e eficiente, atuando no mercado.

Lendo e aprendendo

Essa ampliação do conceito de “leitor” tem implicações jurídicas. Em setembro de 2016, pesquisadores da Google publicaram um artigo no qual descrevem o funcionamento de um algoritmo desenvolvido para gerar frases em linguagem natural [4]. O algoritmo “leu” mais de 11 mil obras de ficção para que as frases geradas pelo algoritmo fossem estilisticamente melhores do que as frases geradas por outros algoritmos para geração de linguagem natural.

Empresas como Google e Facebook vêm investindo bastante na geração de “assistentes virtuais”, capazes de responder perguntas e manter uma conversa coerente sob a forma de chats online. Programas desse tipo, na verdade, não são nenhuma novidade. Em 1966, por exemplo, Joseph Weizenbaum criou um programa de chat chamado Eliza, em homenagem à personagem de mesmo nome da peça Pigmalião (1913) de Bernard Shaw. O problema é que programas como Eliza contam com um número limitado de frases prontas, que são reutilizadas com alguns ajustes gramaticais conforme o input do interlocutor. Isso torna a interação com o programa repetitiva e pouco natural. Para evitar esse problema a Google e outras empresas pretendem desenvolver agora assistentes virtuais inteligentes, capazes de gerar frases novas e que soem naturais. Para isso, é necessário que o assistente virtual “leia” milhares de obras a fim de identificar uma diversidade de padrões e estilos de conversação, mas sem repetir literalmente as frases que lê.

O artigo publicado pelos pesquisadores da Google, no entanto, gerou um problema jurídico. As obras de ficção “lidas” pelo algoritmo não estavam em domínio público. No momento em que foram disponibilizadas online, não havia ainda sido considerada a possibilidade de que, entre os seus “leitores”, estariam também algoritmos, capazes de “ler” milhares de obras e de reutilizá-las para fins comerciais. Muitos escritores e escritoras se sentiram lesados ao saberem que suas obras haviam sido “lidas” por algoritmos, e não por pessoas.

O uso de algoritmos para a análise de obras de ficção não se limita à “leitura” de romances de maior apelo comercial. O uso se estende também à análise de clássicos da literatura. Pesquisadores poloneses desenvolveram em 2016 um algoritmo para analisar textos de autores como, por exemplo, James Joyce, Virginia Woolf, e Roberto Bolaño. Os pesquisadores constataram que muitos clássicos da literatura, diferentemente de best-sellers, têm uma estrutura fractal. Isso significa dizer que o tamanho das frases, contado em número de palavras, vai se alternando segundo padrões específicos. Esses padrões conferem à narrativa um ritmo próprio, do qual os leitores (e talvez até mesmo os autores) nem sempre são inteiramente conscientes [5].

No contexto da antiguidade, Aristóteles ainda estava em condição de conhecer praticamente todas as obras dramáticas relevantes e de examinar certas estruturas comuns a todas elas. Nos dias de hoje, porém, nenhum ser humano consegue ter sozinho essa visão de todo.

Algoritmos, eu acredito, não substituirão o trabalho de filósofos ou críticos literários. Mas algoritmos, ainda assim, podem muito bem, no futuro, vir a se tornar ferramentas indispensáveis para a análise da estrutura narrativa de obras literárias.

Marcelo de Araújo é professor e Ética e Filosofia do Direito da UFRJ e da UERJ.

Notas

[1] Reagan, A. J.; Mitchell, L.; Kiley, D. et. al. 2016. “The emotional arcs of stories are dominated by six basic shapes”. EPJ Data Science, 5(31): 1-12.

[2] Hedonometer (link)

[3] Arco emocional das obras analisadas pelo Hedonometer (link)

[4] Bowman, S. R.; Vilnis, L.; Vinyals, O. et al. 2016. “Generating sentences from a continuous space”. Cornell University Library (link)

[5] Dro?d?, S.; O?wi?cimka, P.; Kulig, A. et al. 2016. “Quantifying origin and character of long-range correlations in narrative texts”. Information Sciences, 331: 32-44.

COMPARTILHE: