Design a system for retrieving the IDs of the most similar ~50 vectors (by e.g. Euclidean distance) to a given query vector from a dataset of ~10B (~10^10) vectors. Each vector is an ordered list of 100 floats and has a corresponding unique ID. The dataset receives ~10K requests / second to overwrite a vector with a new one and ~10K query (read) requests per second. Vectors are never inserted or deleted, only overwritten (i.e. IDs are never inserted or removed).
System DesignMid-level
Design an ANN index system
Design a system that can efficiently retrieve the IDs of the most similar ~50 vectors to a given query vector from a dataset of ~10 billion vectors, supporting high-throughput read and write operations with approximate nearest neighbor search capabilities.
Contextos reais
Onde essa pergunta já apareceu
Use esses exemplos para entender em que contexto ela costuma cair e adaptar sua prática.
Googleout. de 2025
Anexos públicos
Materiais associados
Nenhum anexo público associado a esta pergunta.
Sinais de resposta forte
Você mostra decisões explícitas, não só uma lista de componentes.
Há trade-offs claros entre simplicidade, custo, latência e consistência.
A solução fecha com gargalos, riscos e próximos passos de evolução.
O que costuma enfraquecer a resposta
Pular requisitos e ir direto para uma arquitetura decorada.
Nomear tecnologias sem explicar por que elas resolvem o problema.
Encerrar a resposta sem discutir falhas, abuso, operação ou trade-offs.
Continue a preparação com o banco completo
No app você encontra perguntas parecidas, compara empresas e aprofunda essa busca com mais filtros.