Curso I2A2 - Desafio 1 - Explorando Modelos

Como parte do curso de Agentes autônomos com IAs foi proposto no curso o desenvolvimento de algumas atividades. O desafio proposto está disponível no link: Portal do curso Atividade 1 Fornecidos os dois textos em latim para o Gemini, juntamente com as questões a serem respondidas e habilitada a função canvas foi gerado o seguinte documento: Análise dos Textos - Google Docs docs.google.com Atividade 2 Equipamento defeituoso: V2 Como chegou nessa conclusão: Forneci os dados aos modelos sob o seguinte mesmo prompt: Considere os dados forneci. Na planilha você encontrará 8 equipamentos com 17 sensores cada. Um dos equipamentos é defeituoso. Em cada linha você encontrará um modelo diferente de sensor que está instalado em cada um dos 8 equipamentos. Em cada coluna você terá um equipamento e as medidas dos 17 sensores distintos. Para esta atividade, não nos importa o cada sensor mede, apenas os valores coletados. Também vamos supor que todos os sensores estão funcionando corretamente e estão devidamente calibrados. Analise os dados considerando o contexto fornecido e responda qual é o equipamento defeituoso Os utilizei nos seguintes modelos obtendo os seguintes resultados: Gemini 2.0 flash: De forma simples respondeu que o equipamento V2 apresenta a maior quantidade de leituras atípicas. DeepSeek R1: Fez uma análise baseada nas médias e desvios padrões dos dados fornecidos chegando na conclusão de que o equipamento V8 é o defeituoso com base no distanciamento que a média e o desvio padrão tomam do restante da média e desvio padrão dos demais equipamentos. ChatGPT: Não conseguiu processar os dados com o prompt fornecido e fazendo o input dos dados por meio de arquivo, pediu para tentar novamente mais tarde e sugeriu que eu fizesse a análise eu mesmo utilizando Python + Pandas Grok 3: Calculou a média para cada uma das linhas e seus determinados desvios padrões, considerou normal todas as medidas que ficassem dentro de um intervalo de normalidade definido [média - 2 * desvio padrão, média + 2 * desvio padrão], contou quantas medições ficaram fora da normalidade definida para cada equipamento, chegando à conclusão de que o equipamento V2 tinha muito mais medições anormais e portanto o mais provável de ser o defeituoso. Claude 3.7 Sonnet: Não foi capaz de receber os dados como planilha, mas dados os dados como texto ele foi capaz de entender e produzir a análise mais interessante. Fazendo análises mais arrojadas, inicialmente a análise foi similar ao do Gemini e ao do Grok, determinando médias e analisando a quantidade de desvios, mas fez uma análise percentual da quantidade de desvios de cada um dos equipamentos, maior quantidade de desvios por equipamento, tamanho dos desvios nas leituras do mesmo equipamento e por fim ainda calculou o z-score para as medições chegando na conclusão de que o V2 apresenta valores mais altos de forma consistente. Além de uma análise mais arrojada o Claude ainda fez uma apresentação das conclusões em React. Sendo que solicitei ao Claude para que passasse o código de tsx para html facilitando o deploy e realizei o deploy do código criado na Verceu, estando disponível em Análise Claude Atividade 3 Para criar a história solicitada pela atividade segui o seguinte passo a passo disponível em Artigo criado

May 3, 2025 - 00:59
 0
Curso I2A2 - Desafio 1 - Explorando Modelos

Como parte do curso de Agentes autônomos com IAs foi proposto no curso o desenvolvimento de algumas atividades.
O desafio proposto está disponível no link: Portal do curso

Atividade 1

Fornecidos os dois textos em latim para o Gemini, juntamente com as questões a serem respondidas e habilitada a função canvas foi gerado o seguinte documento:

Atividade 2

  • Equipamento defeituoso:
    V2

  • Como chegou nessa conclusão:
    Forneci os dados aos modelos sob o seguinte mesmo prompt:
    Considere os dados forneci.

Na planilha você encontrará 8 equipamentos com 17 sensores cada. Um dos equipamentos é defeituoso.
Em cada linha você encontrará um modelo diferente de sensor que está instalado em cada um dos 8 equipamentos.
Em cada coluna você terá um equipamento e as medidas dos 17 sensores distintos.
Para esta atividade, não nos importa o cada sensor mede, apenas os valores
coletados. Também vamos supor que todos os sensores estão funcionando
corretamente e estão devidamente calibrados.
Analise os dados considerando o contexto fornecido e responda qual é o equipamento defeituoso

Os utilizei nos seguintes modelos obtendo os seguintes resultados:

  • Gemini 2.0 flash: De forma simples respondeu que o equipamento V2 apresenta a maior quantidade de leituras atípicas.
  • DeepSeek R1: Fez uma análise baseada nas médias e desvios padrões dos dados fornecidos chegando na conclusão de que o equipamento V8 é o defeituoso com base no distanciamento que a média e o desvio padrão tomam do restante da média e desvio padrão dos demais equipamentos.
  • ChatGPT: Não conseguiu processar os dados com o prompt fornecido e fazendo o input dos dados por meio de arquivo, pediu para tentar novamente mais tarde e sugeriu que eu fizesse a análise eu mesmo utilizando Python + Pandas
  • Grok 3: Calculou a média para cada uma das linhas e seus determinados desvios padrões, considerou normal todas as medidas que ficassem dentro de um intervalo de normalidade definido [média - 2 * desvio padrão, média + 2 * desvio padrão], contou quantas medições ficaram fora da normalidade definida para cada equipamento, chegando à conclusão de que o equipamento V2 tinha muito mais medições anormais e portanto o mais provável de ser o defeituoso.
  • Claude 3.7 Sonnet: Não foi capaz de receber os dados como planilha, mas dados os dados como texto ele foi capaz de entender e produzir a análise mais interessante. Fazendo análises mais arrojadas, inicialmente a análise foi similar ao do Gemini e ao do Grok, determinando médias e analisando a quantidade de desvios, mas fez uma análise percentual da quantidade de desvios de cada um dos equipamentos, maior quantidade de desvios por equipamento, tamanho dos desvios nas leituras do mesmo equipamento e por fim ainda calculou o z-score para as medições chegando na conclusão de que o V2 apresenta valores mais altos de forma consistente. Além de uma análise mais arrojada o Claude ainda fez uma apresentação das conclusões em React.

Sendo que solicitei ao Claude para que passasse o código de tsx para html facilitando o deploy e realizei o deploy do código criado na Verceu, estando disponível em Análise Claude

Atividade 3

Para criar a história solicitada pela atividade segui o seguinte passo a passo disponível em Artigo criado