Imagine uma ferramenta que, em poucos segundos, analisa comentários suspeitos na internet e revela se eles são falsos ou promovem discurso de ódio, explicando o motivo da classificação. Esse foi o objetivo que inspirou Francielle Alves Vargas a desenvolver sua tese, intitulada Socially Responsible and Explainable Automated Fact-Checking and Hate Speech Detection, defendida em novembro de 2024 no Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos.

A pesquisadora conta que suas próprias experiências com discriminação, sendo uma mulher em uma área majoritariamente masculina, despertaram não apenas interesse científico, mas também motivação para usar seu conhecimento como ferramenta de transformação social. “Minha intenção foi contribuir de alguma forma para mitigar esse problema, criando soluções que pudessem identificar e combater o discurso de ódio. Trabalhar com isso, é de alguma forma, proteger grupos vulneráveis e construir um ambiente online mais seguro e justo”, defende.
Apesar de eficientes em identificar fake news e discursos de ódio, os sistemas atuais de verificação de fatos carecem de transparência pois não revelam os critérios usados para as classificações. A resolução para este entrave – necessidade de verificação x falta de imparcialidade das checagens, seria justamente a adoção de métodos transparentes e eficazes tal como propõe Francielle em sua tese. A pesquisadora criou 3 modelos que classificam e explicam por que uma notícia ou comentário foi classificado como falso ou ofensivo, ajudando o público a entender o processo de decisão, além de mitigar os riscos desses modelos estarem enviesados e reforçarem ou propagarem problemas sociais

Para desenvolver sistemas de verificação de fatos e detecção de discurso de ódio, é essencial dispor de grandes conjuntos de dados organizados e rotulados, ou seja, bases que indiquem claramente quais conteúdos são factuais, enviesados (que apresentam alguma parcialidade ou opinião) ou falsos (compostos por informações inverídicas ou manipuladas). Até então, essas bases existiam principalmente em inglês, o que dificultava a adaptação de modelos para o contexto brasileiro.
“Criar uma base de dados é algo custoso, demorado e exige conhecimento especializado”, explica Francielle.
Apesar do desafio, a pesquisadora não se intimidou e contou com o apoio de duas colegas doutoras na área de Ciência de Dados e IA: Isabelle Carvalho e Fabiana Góes. Juntas, elas rotularam manualmente 7 mil comentários do Instagram ao longo de seis meses, resultando no HateBR: primeiro banco de dados brasileiro voltado exclusivamente para a detecção de discurso de ódio.
Para reduzir o risco de viés de classificação — que ocorre quando as interpretações ou preferências pessoais dos anotadores influenciam os resultados —, Francielle adotou uma estratégia de diversidade. Ela selecionou pesquisadoras com perfis variados, incluindo mulheres brancas e negras, provenientes das regiões Norte e Sudeste do Brasil, e com diferentes orientações políticas. Essa abordagem garantiu uma análise mais equilibrada e representativa, minimizando possíveis influências subjetivas nas anotações dos dados.
Para construir o FactNews, Francielle selecionou notícias dos mesmos assuntos e do mesmo dia publicadas por três veículos de mídia amplamente reconhecidos no Brasil — Folha de São Paulo, Estadão e O Globo. No total, foram coletadas 300 notícias, sendo 100 de cada veículo, que foram classificadas frase a frase, com base na factualidade, ou seja, se condizem com fatos reais e se estes eram parciais ou imparciais (sem interpretações ou julgamentos). Se a frase fosse objetiva, ela era classificada como conteúdo factualmente correto. Caso fosse parcial, ela passava para uma segunda classificação, baseada no modelo da AllSides, empresa americana que avalia o viés político de agências de notícias. Entre as 12 categorias de viés da notícia, se destacam alegações infundadas, distorção da informação e sensacionalismo.
“Essa categorização foi crucial porque lidamos com estratégias sofisticadas de desinformação, que são elaboradas para manipular a percepção das pessoas”.
Francielle também aplicou métodos estatísticos para calcular a pontuação de concordância entre as classificações das três pesquisadoras. Essa abordagem garantiu que as análises fossem consistentes e minimamente subjetivas, aumentando a confiabilidade dos dados.
(Fontes Comunicação Científica)