Wat als je ongestructureerde data echt kan begrijpen?

Hoe de AI gedreven zoekmachine Weaviate het potentieel van ongestructureerde data onthult en waarom dat belangrijk is.

 

Door Laura Ham van SeMI Technologies

 

Tegenwoordig houden steeds meer bedrijven een data-gedreven cultuur aan. Zowel bedrijfsprocessen als de klantbeleving blijken te profiteren van een goede verzameling, beheer en analyse van de data. Om echt voordeel te halen uit de beschikbare data is het van belang ook de ongestructureerde data te begrijpen, zoals vrije tekst in pdf-documenten, e-mails, facturen en gesproken berichten. Ongestructureerde data is vooral lastig te indexeren, te beheren en te begrijpen. Ongeveer 80 procent van alle data is ongestructureerd, wat het moeilijk maakt om daadwerkelijk te zoeken in en inzichten te verkrijgen uit deze rijke data.

 

De open source zoekmachine Weaviate biedt hiervoor een oplossing. Vrije tekst doorzoeken met vage zoektermen en classificatie van vrije data gebaseerd op context is mogelijk met Weaviate. Weaviate gebruikt een AI-gedreven indexering en daarop gebaseerde zoektechnologieën om tekst real-time te verwerken. Met behulp van machine learning methodes kan Weaviate tekst automatisch classificeren. Het vinden van de informatie waar je naar zoekt en het geven van suggesties is mogelijk doordat kennis en informatie in context wordt geplaatst.

 

Hoe werkt Weaviate?

Data refereert vaak aan iets (bijvoorbeeld een object of een gebeurtenis) in de echte wereld. Relaties tussen data en de echte representatie in de wereld worden niet opgeslagen in traditionele databases en zoekmachines, waardoor de context van de data – een situatie of een zoekopdracht – lastig te begrijpen is. Wanneer data wordt opgeslagen met behulp van de context in de echte wereld, kunnen zoekopdrachten beter worden uitgevoerd doordat er gezocht kan worden met vage concepten in plaats van exacte zoekwoorden. Weaviate plaatst concepten en woorden automatisch in relatie tot de context met behulp van machine learning. Het begrijpt bijvoorbeeld dat de Eiffeltoren een monument is in Parijs en plaatst deze twee concepten dicht bij elkaar in het database model. Een ander voorbeeld van het vinden van concepten binnen een context is het weergeven van oranje tompoucen wanneer er wordt gezocht op gebak rondom Koningsdag.

Voorbeeld use cases

Laten we eens kijken naar meer relevante voorbeelden dan monumentale gebouwen en gebakjes (hoewel we oranje tompoucen vanzelfsprekend niet willen missen tijdens Koningsdag). Hoe kan uw bedrijf profiteren van zoeken in en classificeren van ongestructureerde data?

 

Automatische classificatie

Het classificeren van data wordt vaak handmatig gedaan of door dure externe data science consultants. ERP en logistieke systemen vertrouwen op juiste classificaties, zoals de reiskosten van medewerkers of het labelen van ingrediënten op productverpakkingen. Automatische classificatie door Weaviate vermindert fouten die komen door handmatige handelingen en neemt de hoge kosten weg die komen kijken bij eenmalige classificatie applicaties. Automatische classificatie kan ook worden toegepast bij cybersecurity en event management, waar het onderscheppen van dreigingen en risicovolle gebeurtenissen real-time moet gebeuren. Deze beveiligingsplatformen van tegenwoordig hebben te maken met grote hoeveelheden datastromen die voornamelijk bestaan uit vrije tekst. Weaviate kan automatisch dreigingen herkennen in vrije tekst en classificeren, óf er actie moet worden ondernomen en zo ja welke actie dat dan moet zijn. Met Weaviate kan dit bijna real-time worden bereikt, zelfs op grote schaal.

 

Semantisch zoeken

Traditionele zoekmachines geven resultaten weer die exact overeenkomen met de zoektermen. Dit betekent dat zoeken in e-mails voor ‘vergoeding’ resultaten overslaat over ‘compensatie’. Zoeken op ‘science fiction’ boeken in een traditionele zoekmachine zal resultaten weergeven gerelateerd aan ‘science’ (‘wetenschap’) of ‘fiction’, zoals bijvoorbeeld ‘neuroscience’, maar geen ‘fantasieboeken over de toekomst’.
Weaviate maakt gebruikt van semantisch zoeken en stemt zoekresultaten af op de intentie van de gebruiker met behulp van de context waarbinnen wordt gezocht. Voor e-commerce websites betekent dit dat bezoekers die zoeken naar ‘truien’ ook ‘sweaters’, ‘pullovers’ en ‘jumpers’ te zien krijgen aangezien de context overeenkomt.

Zo zie je dat het automatisch plaatsen van oranje tompoucen in de context van Koningsdag zomaar kan leiden tot verkoop van meer gebakjes en dus meer tevreden klanten. Er liggen vast en zeker ook kansen verborgen in het overgrote deel van uw data. Denk eens aan het potentieel dat een AI-gedreven zoekmachine kan bieden aan uw organisatie!

 

Nieuwsgierig naar de mogelijkheden en voordelen voor uw organisatie? Kijk bij Weaviate voor technische details or neem contact op met SMT voor verdere informatie!