Hoe werkt het?
Een AI-model zet tekst (of een beeld, of audio) om in een embedding: een lange lijst getallen die de betekenis ervan vastlegt. Twee stukken tekst die hetzelfde betekenen, krijgen vectoren die dicht bij elkaar liggen, ook al gebruiken ze totaal andere woorden.
Een vector store bewaart al die vectoren en kan razendsnel de meest gelijkaardige terugvinden. Stel je het voor als een gigantische landkaart waarop elk document een punt is. Verwante onderwerpen staan dicht bij elkaar. Wie een vraag stelt, krijgt een punt op diezelfde kaart, en de vector store geeft de dichtstbijzijnde buren terug.
Een klassieke databank zoekt op exacte woorden. Een vector store zoekt op betekenis.
Waarvoor dient het?
Zodra je informatie op betekenis wil doorzoeken, komt een vector store in beeld. De meest voorkomende toepassingen:
- Semantisch zoeken: zoeken op wat iemand bedoelt, niet op de exacte term. Iemand die zoekt op "energiekosten verlagen" vindt ook een pagina over "besparen op stookkosten".
- AI-assistenten op eigen data (RAG): de assistent haalt de juiste passages uit je content op en formuleert daarmee een antwoord, met bronvermelding.
- Aanbevelingen: gelijkaardige producten, artikels of dossiers voorstellen.
- Classificatie en duplicaatdetectie: automatisch herkennen wat bij elkaar hoort of dubbel is.
Waarom heb je het echt nodig?
Een gewone zoekfunctie werkt op trefwoorden. Staat het woord er niet exact in, dan vindt ze niets, ook al gaat de tekst inhoudelijk perfect over je vraag. Voor een FAQ van tien vragen is dat geen probleem. Voor een AI-assistent die betrouwbaar moet antwoorden op honderden pagina's content, e-mails of documenten wel.
De vector store is precies het stuk dat ervoor zorgt dat de assistent de juiste informatie aangereikt krijgt voor hij antwoordt. Zonder die laag gokt een taalmodel, of verzint het iets. Mét die laag antwoordt het op basis van jouw echte content, en kan het verwijzen naar de bron.
Vector store of vector database?
De termen worden door elkaar gebruikt en betekenen in de praktijk hetzelfde: een systeem dat vectoren opslaat en doorzoekbaar maakt. Soms is het een aparte, gespecialiseerde database, soms een uitbreiding op een bestaande databank. Wij gebruiken vaak pgvector, een uitbreiding op PostgreSQL, zodat je vectoren naast je gewone data leven in één systeem dat je al kent.
Verwante begrippen
- Embeddings: de getallenreeksen die betekenis vastleggen en in de vector store belanden.
- RAG (retrieval-augmented generation): de techniek waarbij een AI eerst relevante info ophaalt uit de vector store en daarna pas antwoordt.
- Semantisch zoeken: zoeken op betekenis, mogelijk gemaakt door embeddings en een vector store.