Ciências da computação dia 127: Threads e Concorrência

Em aulas anteriores, discutimos a fundo o conceito de processos e como o sistema operacional os escalona. Hoje, dia 127, damos um passo adiante para entender as threads. Se um processo é como uma fábrica com um único funcionário que faz tudo sozinho, uma thread é como um funcionário dentro dessa fábrica. Podemos ter múltiplos funcionários (threads) trabalhando lado a lado, compartilhando o mesmo espaço da fábrica (memória do processo).

Threads são frequentemente chamadas de "processos leves". Cada thread possui seu próprio stack (pilha) e conjunto de registradores, mas compartilha o heap, o segmento de dados e os descritores de arquivo do processo que a criou. Isso torna a comunicação entre threads extremamente rápida, mas também abre portas para uma série de problemas complexos de concorrência.

Processos vs. Threads: Uma Análise Detalhada

A principal diferença reside no isolamento. Um processo é uma entidade independente. Se um processo falha, os outros não são afetados (em um sistema operacional estável). Já uma thread falha pode derrubar todo o processo. A criação de um novo processo com fork() duplica o espaço de endereçamento, o que é caro em termos de tempo e recursos. A criação de uma nova thread, normalmente feita com pthread_create() no POSIX ou CreateThread() no Windows, é muito mais leve.

A troca de contexto (context switch) entre threads do mesmo processo é significativamente mais barata do que entre processos. Isso porque, ao trocar de thread, não precisamos invalidar a TLB (Translation Lookaside Buffer) ou trocar o mapa de memória, já que as threads compartilham o mesmo espaço de endereçamento.

Modelos de Threads: Como o SO Gerencia as Threads?

Existem três modelos clássicos de implementação de threads:

Modelo Muitos-para-Um (N:1): Gerenciamento inteiramente no espaço do usuário. O kernel não sabe da existência das threads. Um exemplo é o GNU Pth. Vantagem: troca de contexto extremamente rápida. Desvantagem: uma única chamada de sistema bloqueante (como read() do disco) bloqueia todo o processo, e não podemos aproveitar múltiplos núcleos da CPU.
Modelo Um-para-Um (1:1): Cada thread de usuário é mapeada para uma thread do kernel. Linux (usando clone() com as flags corretas) e Windows utilizam este modelo. Vantagem: paralelismo real em sistemas multicore. Desvantagem: maior overhead de criação e gerenciamento.
Modelo Muitos-para-Muitos (M:N): Um pool de threads do kernel é multiplexado para um número maior de threads de usuário. O escalonador de usuário decide quais threads devem ser executadas nas threads do kernel disponíveis. O Solaris implementava este modelo. Ele tenta combinar as vantagens dos dois modelos anteriores, mas sua implementação é complexa e atualmente seu uso é limitado.

Desafios da Concorrência: Race Conditions, Deadlocks e Starvation

Quando múltiplas threads acessam um recurso compartilhado, como uma variável global, o comportamento pode ser imprevisível se não houver sincronização.

Race Condition: Ocorre quando duas threads tentam ler e escrever na mesma variável ao mesmo tempo. O resultado final depende de qual thread "vence" a corrida, o que pode levar a bugs intermitentes e difíceis de depurar.
Deadlock: É um impasse onde a Thread A espera por um recurso que a Thread B possui, e a Thread B espera por um recurso que a Thread A possui. Nenhuma das duas consegue progredir.
Starvation: Uma thread nunca recebe o recurso de que precisa porque outras threads o monopolizam.
Livelock: As threads estão ativamente mudando de estado em resposta uma à outra, mas nenhuma delas consegue progredir efetivamente.

Mecanismos de Sincronização Essenciais

Para domar a concorrência, o SO e as bibliotecas de threading oferecem ferramentas de sincronização:

Mutex: A ferramenta mais básica. Garante a exclusão mútua: apenas uma thread por vez pode entrar na seção crítica protegida pelo mutex.
Semáforo: Um contador que pode ser usado para controlar o acesso a um pool de recursos.
Variáveis de Condição: Permitem que threads esperem por uma condição específica. Por exemplo, uma thread consumidora espera até que a fila de tarefas não esteja vazia.
Barreiras: Sincronizam um grupo de threads em um ponto específico. Nenhuma thread pode ultrapassar a barreira até que todas as threads do grupo a tenham alcançado.

Exemplo Prático: Sincronizando com Mutex em C (Pthreads)

O código a seguir demonstra a criação de duas threads que incrementam um contador compartilhado. Sem o mutex, o valor final seria incorreto devido à race condition.

#include <pthread.h>
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>

pthread_mutex_t mutex = PTHREAD_MUTEX_INITIALIZER;
int counter = 0;

void* increment(void* arg) {
    for (int i = 0; i < 100000; i++) {
        pthread_mutex_lock(&mutex);
        counter++;
        pthread_mutex_unlock(&mutex);
    }
    return NULL;
}

int main() {
    pthread_t t1, t2;
    pthread_create(&t1, NULL, increment, NULL);
    pthread_create(&t2, NULL, increment, NULL);
    pthread_join(t1, NULL);
    pthread_join(t2, NULL);
    printf("Final counter: %d\n", counter); // Should be 200000
    return 0;
}

Conclusão e Reflexões Finais

Threads são uma ferramenta poderosa para escrever programas eficientes, especialmente em servidores e aplicações que precisam realizar múltiplas tarefas simultaneamente. No entanto, o poder vem com a responsabilidade. Erros de sincronização são notoriamente difíceis de depurar. A recomendação para o dia a dia é: minimize o compartilhamento, use estruturas de dados thread-safe sempre que possível e confie em pools de threads em vez de criar e destruir threads manualmente. Ferramentas como ThreadSanitizer e Helgrind são obrigatórias na caixa de ferramentas de qualquer desenvolvedor que trabalhe com concorrência.

Perguntas Frequentes (FAQ)

Threads em Python realmente funcionam? Sim, mas com ressalvas. O Global Interpreter Lock (GIL) impede que threads executem bytecode Python em paralelo. Para tarefas de I/O, como requisições web, threads são excelentes. Para tarefas computacionais pesadas, o módulo multiprocessing é o mais adequado.
Qual é a diferença entre pthread_mutex_lock e pthread_mutex_trylock? lock é bloqueante: se o mutex estiver ocupado, a thread espera. trylock retorna imediatamente com um código de erro se o mutex estiver ocupado, permitindo que a thread faça outra coisa ou tente novamente mais tarde.
É possível fazer um deadlock com apenas um mutex? Sim! Se uma thread tentar dar lock em um mutex que ela já possui (e o mutex não for do tipo recursivo), a thread entrará em deadlock consigo mesma (self-deadlock).
O que é um thread pool? É um conjunto de threads pré-criadas que ficam ociosas aguardando tarefas. Quando uma tarefa é submetida, uma thread do pool é acordada para executá-la. Isso evita o overhead de criação e destruição de threads a cada requisição.