Deep-Learning

Texto de Estudo Detalhado sobre Fine-tuning Contínuo de LLMs

https://aws.amazon.com/pt/blogs/machine-learning/llm-continuous-self-instruct-fine-tuning-framework-powered-by-a-compound-ai-system-on-amazon-sagemaker/ https://github.com/aws-samples/amlc-2024-tutorial-continuous-fine-tuning-compound-ai/tree/main Este texto visa fornecer uma descrição detalhada dos tópicos abordados no artigo “LLM continuous self-instruct fine-tuning framework powered by a compound AI system on Amazon SageMaker”. O foco principal será nos seguintes conceitos cruciais para o aprimoramento contínuo de Large Language Models (LLMs): Pré-training Instruction Tuning Domain Adaptation Continuous Training Embora o artigo não se aprofunde nos detalhes do pré-treinamento, é fundamental entender seu papel como base para as etapas subsequentes. Portanto, iniciaremos com uma breve descrição do pré-treinamento antes de mergulhar nos tópicos com maior ênfase no texto. ...

Domain2 - Self-Attention

O mecanismo de Self-Attention (autoatenção) é uma inovação crucial da arquitetura Transformer que permite ao modelo ponderar a importância de diferentes partes da sequência de entrada ao processá-la. Diferente de modelos sequenciais anteriores, como as Redes Neurais Recorrentes (RNNs), que processam a entrada um elemento por vez, a autoatenção permite que o modelo estabeleça conexões diretas entre todos os tokens da sequência, independentemente de sua distância posicional. Funcionamento Detalhado: Para cada token na sequência de entrada, a camada de autoatenção calcula três vetores: ...

Domain2 - Transfer-Learning

Transfer Learning: A Chave para Potencializar Modelos de Inteligência Artificial com Menos Dados e Tempo No cenário dinâmico da Inteligência Artificial (IA) e do aprendizado de máquina (Machine Learning - ML), a capacidade de construir modelos robustos e precisos é fundamental. Tradicionalmente, o treinamento de modelos complexos, especialmente aqueles baseados em Deep Learning, exigia vastas quantidades de dados rotulados e um poder computacional significativo, além de um tempo considerável. No entanto, uma técnica poderosa emergiu como um catalisador para superar essas limitações: o Transfer Learning (Aprendizado por Transferência). ...