IA sob escrutínio: foi assim que a inteligência artificial foi avaliada no exame de filosofia do bacharelado francês.

  • O ChatGPT foi submetido ao exame de filosofia do Bacharelado Francês, e a resposta criada foi avaliada por um professor e vários IAs.
  • A avaliação humana detectou erros conceituais, falta de profundidade e reformulação de perguntas, dando nota 8/20 à redação.
  • As ferramentas de IA deram notas muito mais altas, sem reconhecer as falhas subjacentes observadas pelo professor.
  • O experimento destaca os limites da IA ​​no raciocínio filosófico e a lacuna em relação ao julgamento humano.

Exame de filosofia com IA

Nos últimos dias, uma curiosa Um experimento educacional na França testou as capacidades reais da inteligência artificial. para enfrentar as provas de filosofia do ensino médio, o famoso Bacharelado. O gatilho foi uma pergunta aberta: A verdade é sempre convincente? Uma pergunta típica dos vestibulares, que mede a maturidade argumentativa dos alunos logo ao final do ensino médio.

A France 3 Hauts-de-France, uma emissora pública, decidiu contratar o ChatGPT para escrever um ensaio. Como se fosse um aluno almejando a nota mais alta. O objetivo? Testar até que ponto uma IA consegue superar a filtragem dos professores e as ferramentas de avaliação automática.

A proposta do ChatGPT e os critérios de ensino

Para imitar a situação real, a IA foi dotada de um Prompt detalhado: deve adotar o estilo e a estrutura de um aluno sênior, organize o texto em introdução, desenvolvimento e conclusão e aborde todas as nuances do tópico.
Quando a resposta gerada foi apresentada, à primeira vista a escrita parecia academicamente correta: frases fluentes, ausência de erros ortográficos e estrutura clara. No entanto, a impressão inicial se desfez após uma análise mais aprofundada.

O professor de filosofia responsável pela correção da redação deu nota 8 de 20.. Por que uma pontuação tão baixa? Principalmente porque detectou falta de profundidade nos argumentos, falta de exemplos e, acima de tudo, uma reviravolta inesperada na forma como a pergunta foi formulada: a IA passou de responder "A verdade é sempre convincente?" para perguntar "A verdade é suficiente para convencer?". Para o professor, essa mudança mostrou que o sistema não havia compreendido completamente a instrução original, um erro significativo nesse tipo de teste.

Outro aspecto negativo apontado foi a tendência do ChatGPT de repetindo fórmulas padrão e evitando a reflexão pessoal, o que tornou o resultado muito superficial em comparação ao que se espera de um aluno bem preparado.

manuscritos-0
Artigo relacionado:
Novas descobertas e tecnologias no estudo de manuscritos históricos

Outros sistemas de IA e diferenças nos critérios

O exame não se limitou à opinião do professor. O texto gerado pelo ChatGPT também foi avaliado por diferentes IAs., incluindo Gemini, Perplexity, DeepSeek e Copilot. Todos eles concordaram em dar pontuações muito mais altas: entre 15 e 19,5 de 20.

O que explica essa diferença marcante? As plataformas automatizadas enfatizaram a boa estrutura formal e a coerência superficial do ensaio, mas ninguém detectou o erro fundamental na compreensão do tópico nem a falta de precisão argumentativa identificada pela professora. Além disso, a própria ChatGPT atribuiu a si mesma uma nota de 19,5/20, demonstrando pouca autocrítica.

Para o professor, tudo isso confirma que As IAs podem atender bem aos requisitos mecânicos —escrita ordenada, conectores, exemplos básicos—, mas não conseguem se aprofundar, nuançar ou captar as nuances conceituais e filosóficas exigidas nesses exercícios.

Refletindo os limites atuais da IA ​​na educação

Este caso serviu para colocar em cima da mesa Os limites atuais da inteligência artificial no que diz respeito à reflexão filosófica e à análise crítica. Embora programas como o ChatGPT lidem muito bem com aspectos formais e produzam textos aparentemente convincentes, A capacidade de argumentar, questionar ou contribuir com os próprios pontos de vista ainda é muito inferior à do aluno real.

O ensaio é valorizado, além das palavras bem conectadas, não demonstrou raciocínio original ou respondeu com precisão às solicitaçõesA professora comentou que Um aluno teria pensado em tudo o que estava faltando e teria se saído muito melhor..

Por outro lado, o facto de as ferramentas de IA atribuírem classificações tão favoráveis ​​aos textos gerados por outras IA destaca a existência de vieses nos sistemas de avaliação automática, que priorizam a forma sobre a substância e são menos exigentes na análise conceitual.

as luzes de fevereiro
Artigo relacionado:
As luzes de fevereiro: Joana Marcus