Rogério Coutinho
30 de jan. de 2025
LLMs NÃO são grandes bancos de dados!
LLMs NÃO são grandes bancos de dados!
Sei que para muitos isso parece meio óbvio, mas percebo conversando com as
pessoas no dia a dia que ainda tem muita confusão!!
Os LLMs (Large Language Model), como ChatGPT, Gemini, Claude e DeepSeek, eles não são banco de dados!!
#_Como_Funciona
Quando você digita um prompt (sua pergunta ou comando), ele não "busca" uma resposta num banco de dados. O que acontece é um processo muito mais sofisticado:
Seu texto (prompt) entra no modelo.
Ele passa por várias camadas do modelo treinado.
O modelo não consulta informações diretas armazenadas em um local específico, mas calcula probabilidades de quais tokens (já explicamos em posts anteriores) fazem mais sentido na sequência.
A resposta é gerada com base nesses cálculos, usando pesos e parâmetros ajustados durante o treinamento.
No final ele gera o texto de resultado, palavra por palavra (mais precisamente, token por token)!!
#_Mas_E_O_Conhecimento_Que_Ele_Tem
Durante o treinamento do LLM, o modelo foi exposto a uma quantidade enorme de conteúdos e ajustou milhões (geralmente bilhões!) de pesos, que representam o "conhecimento" aprendido. Mas esse conhecimento não está armazenado como textos prontos em um ligar específico dentro de uma tabela de banco de dados, e sim como padrões e relações probabilísticas entre palavras.
#_De_Modo_Mais_Simples
O LLM é mais parecido com um cérebro do que com um banco de dados. Ele usa algoritmos de Redes Neurais.
Ele não "se lembra" de informações específicas, mas sim de padrões que permitem gerar novas respostas a partir de qualquer entrada.
#_Resumindo
Em um banco de dados convencional, você faz uma consulta e ele localiza a informação em um local específico (ex: uma linha dentro de uma tabela ). Dado uma consulta específica, ele retorna sempre o mesmo valor do banco de dados.
Já o LLM, usa seu prompt e o conhecimento que ele tem (obtido durante a fase de treinamento) para gerar um conteúdo novo. Esse conhecimento não está em uma posição específica dentro do sistema, mas é um resultado de cálculos matemáticos de probabilidade que vai identificando o próximo token que tenha mais sentido!!
Sobre o autor:
Rogério Coutinho da Silva
rogerio.coutinho.silva@gmail.com
https://www.linkedin.com/in/rogerio-coutinho-silva/
Engenheiro de Computação formado pela Universidade Federal de São Carlos (UFSCar). Sócio-fundador da Podium Tecnologia (Consultoria especializada em Governança de Segurança da Informação, Privacidade e Continuidade de Negócios) e da SimpleWay (Plataforma de Governança de Segurança Cibernética, Privacidade e IA).
Foto de Saradasish Pradhan na Unsplash





.png)