Design a system for retrieving the IDs of the most similar ~50 vectors (by e.g. Euclidean distance) to a given query vector from a dataset of ~10B (~10^10) vectors. Each vector is an ordered list of 100 floats and has a corresponding unique ID. The dataset receives ~10K requests / second to overwrite a vector with a new one and ~10K query (read) requests per second. Vectors are never inserted or deleted, only overwritten (i.e. IDs are never inserted or removed).
System DesignMid-level
Design an ANN index system
Design a system that can efficiently retrieve the IDs of the most similar ~50 vectors to a given query vector from a dataset of ~10 billion vectors, supporting high-throughput read and write operations with approximate nearest neighbor search capabilities.
Contextos reais
Onde essa pergunta já apareceu
Use esses exemplos para entender em que contexto ela costuma cair e adaptar sua prática.
Googleout. de 2025
Anexos públicos
Materiais associados
Nenhum anexo público associado a esta pergunta.
Próximo passo
Depois de treinar essa pergunta, vale abrir outras do mesmo tipo e da mesma senioridade para comparar padrões de resposta.
Isso ajuda a sair da memorização de uma resposta só e entrar em repertório real de entrevista.
Continue a preparação com o banco completo
No app você encontra perguntas parecidas, compara empresas e aprofunda essa busca com mais filtros.