Ny algoritme fra Google

Google er ved at udvikle en ny algoritme ved navn SMITH – Og den skulle efter sigende overgå BERT.

Ifølge artikler er algoritmen i stand til at læse og forstå længere passager i dokumenter på samme måde, som BERT er i stand til at forstå ord og sætninger.

Modellen er nemlig udviklet med henblik på at kunne forstå hele dokumenter.

Helt kort tegnet op så er BERT trænet til at forstå skjulte ord ud fra konteksten i en sætning, hvor SMITH er trænet til at forudsige, hvad den næste blok af sætninger er.

Derfor er SMITH i højere grad end BERT optimeret til at kunne aflæse større mængder af tekst og sætninger og dermed i stand til også semantisk at kunne matche sætninger.

Semantisk matching er generelt en større udfordring, fordi lange tekster kræver en grundigere forståelse for selve indholdet, og at man evner at afkode mønstre af kontekst i forskellige tekstafsnit.

Større og længere dokumenter har som regel en struktur bestående af sektioner, passager og sætninger. En struktur, som vi mennesker er gode til at aflæse og ikke mindst anvende, når vi skal forstå indholdet af en tekst, da selve opbygningen også er med til at bidrage til forståelsen af indholdet.

Modellen skal altså trænes til, i samme grad som os, at kunne aflæse et dokuments struktur og koble det sammen med aflæsningen af selve tekstens indhold.

Det er en større udfordring frem for kun at skulle aflæse ord og enkelte sætninger, hvorfor det højst sandsynligt også vil trigge nogle praktiske udfordringer.

Men indtil videre tyder det på, at jo længere tekster jo bedre for SMITH modellen. Det giver også mening, da der ved længere tekster er en større mængde af data, som modellen kan lære af og optimere sig efter.

Udviklingen af SMITH udspringer af udfordringen med at matche længere forespørgsler med større og længere mængder af content. Flere og flere er begyndt at lave længere sætninger i forbindelse med søgninger, fordi man ønsker at finde en specifik løsning på en specifik forespørgsel.

SMITH gør det, som BERT ikke er i stand til. BERT erstattes ikke, men suppleres derimod af SMITH.

I forbindelse med udviklingen af en algoritme skal den først igennem det, man kan kalde en træningslejr. Og hvordan skal det så forstås?

Jamen det skal forstås sådan, at algoritmen bliver sat til at finde maskerede eller gemte ord i sætninger. For eksempel kan man sætte algoritmen til at finde/gætte det manglende ord i sætningen:

”Jens Hansen havde en ____ ”

Med tiden vil algoritmen være i stand til at forudsige, at det manglende ord er ”bondegård”.

Samme træning gennemgår SMITH algoritmen, men i stedet for ord er det hele blokke af sætninger, der bliver maskeret og randomiseret.

Hvorfor?

For at træne algoritmen i at der er relationer mellem og forskelle på de forskellige tekstafsnit.

Google oplyser generelt ikke, hvilke algoritmer de bruger, og det vides derfor heller ikke, om SMITH bruges endnu. Men det er helt sikkert værd at holde øje med.