Een solide, technisch fundament | Blogserie GenAI
In dit blog verkennen we de cruciale elementen voor het succes van GenAI-projecten, waaronder de fundamenten van systemen, data en processen
Succesfactor 2: Een stevig fundament
Introductie
Welkom terug bij onze reeks over Generatieve AI (GenAI). Na onze inleiding tot GenAI en het kiezen van een sterke use-case, richten we ons nu op de tweede van de zes succesfactoren: het creëren van een solide fundament van je GenAI-project. Zonder de technische randvoorwaarden op het vlak van systemen, data en processen heeft een Generatieve AI-project weinig kans van slagen.
Het ijsberg principe
We gebruiken het metafoor van een ijsberg om de belangrijke technische voorbereidingen en vereisten voor een succesvol GenAI-project te verkennen. Wat onder de oppervlakte ligt – de data, processen en systemen – is de krachtbron van je (Gen)AI-project.
Kamervragen sneller, nauwkeuriger en consistenter beantwoorden
Neem het AI-gedreven project voor ondersteuning bij Kamervragen als voorbeeld. Aan de oppervlakte stellen we de vraag: “Hoe kunnen we Kamervragen sneller, nauwkeuriger en consistenter beantwoorden?”. Met beleidsmedewerkers bedachten we een aantal kernfunctionaliteiten voor deze uitdaging:
- Het vergelijken van Kamervragen met eerder gestelde Kamervragen en antwoorden.
- Het automatisch samenstellen van dossiers met (passages uit) relevante documenten.
- Het formuleren van potentiële antwoorden op Kamervragen.
Stuk voor stuk zijn dit concrete informatiebehoeften waarmee we aan de slag kunnen. Maar om het te realiseren, moeten we dieper graven om alle aanwezige (en benodigde) componenten te identificeren. Wanneer we het hebben over het beantwoorden van Kamervragen, raken we namelijk ook verwikkeld in onderwerpen zoals ‘2-minuten-debatten’ en ‘mondelinge vragen’. De data is op verschillende manieren gestructureerd en staat ook op verschillende databanken, zoals de website van de Tweede Kamer, Officiële Bekendmakingen, Rijksoverheid en op websites van lokale overheden en kennisinstellingen. Bovendien vereisen de gewenste functionaliteiten specifieke tools en systemen om data te verzamelen, te bewaren, door te zoeken, te interpreteren, te verwerken en te verrijken. In dit blog gaan we stap voor stap deze essentiële bouwstenen langs.
De cruciale rol van data
Elk GenAI-project start met de essentiële bouwsteen: data. De kwaliteit van je resultaten hangt grotendeels af van de datakwaliteit. Of je project nu gericht is op het optimaliseren van de klantenservice, het voorspellen van marktontwikkelingen of het beantwoorden van Kamervragen, op hoofdlijnen volgen we de volgende stappen:
- Data verzamelen: Vanuit de selectie van relevante data voor je use case start je met het verzamelen van de ruwe data. Per databron bekijk je op welke manier je de data kan binnenhalen, denk bijvoorbeeld aan een API-connectie met een databank of een het scrapen van een website. Daarnaast is het van belang om na te denken over de verversingsgraad van de data indien je het AI-project naar productie wil brengen.
- Data pre-processen: Daarna is het zaak om je data op te schonen en structureren. Denk hier aan het tokeniseren, lemmatizeren, stemmen en het verwijderen van overbodige elementen uit teksten. Daarnaast kan je ervoor kiezen om grote stukken tekst op te breken in brokjes (het “chunken” van je data) en het creëren van zogeheten “embeddings”, zodat de tekst beter doorzoekbaar is en het taalmodel in een latere stap de data beter kan gebruiken.
- Data beschikbaar stellen: Tot slot maak je de data beschikbaar voor verschillende componenten van je systeem, zoals je zoekmachine of taalmodel.
In het voorbeeld van Kamervragen, hebben we te maken met publicaties over eerder gestelde Kamervragen, geformuleerde antwoorden, debatverslagen, rapporten, nieuwsberichten en nog veel meer. Het resultaat is een gigantische database met miljoenen documenten, vertaald naar specifieke inzichten per Kamervraag. Op hoofdlijnen ziet het proces er als volgt uit (dit is een simplistische weergave):
Systemen en tools
De technologische ruggengraat
Voor het ontwikkelen van GenAI heb je een sterke mix van rekenkracht, gespecialiseerde infrastructuur en de juiste tools nodig. Voor projecten die zich richten op tekst, zoals het interpreteren en beantwoorden van Kamervragen, zijn er specifieke punten om op te letten. Je hebt dan in het bijzonder baat bij flexibele vormen van data-opslag en verwerkingskracht om de ongestructureerde en dynamische aard van tekstuele informatie te kunnen hanteren. Bij JoinSeven gebruiken we hier bijvoorbeeld datalakes en NoSQL-oplossingen voor. Voor het doorzoekbaar maken van documenten gebruiken we daarnaast op Apache Lucene gebaseerde zoektechnologie.
Use, buy or make?
Zoals je leest, komt er op systeemniveau ook een hoop kijken van het realiseren van Generatieve AI projecten. Gelukkig hoeft niet alles intern ontwikkeld te worden. Veel componenten kan je tegenwoordig laten hosten in geavanceerde cloud platformen, zoals Microsoft Azure. Ons AI-platform Heptagon is een voorbeeld van een ‘plug-and-play’-oplossing die de nieuwste technologieën op het gebied van data-engineering, data-security, schaalbaarheid, machine learning en app-ontwikkeling integreert tegen een aantrekkelijk prijsmodel.
Het ontleden van processen
De use case van je AI-projecten bestaat waarschijnlijk uit complexe workflows en sub-processen. Het is belangrijk dat je het proces ontleedt en identificeert welke cruciale paden het functioneren van je toekomstige oplossing bepalen.
- Breng het proces in kaart: Het uittekenen van de gebruikersreis en het begrijpen van de interactie tussen verschillende systemen is de eerste stap. Waar wordt data ingevoerd, welke transformaties ondergaat het en hoe wordt het uiteindelijk gepresenteerd? Het te ontwikkelen AI-systeem moet niet alleen naadloos integreren met deze bestaande structuren, maar ook eventuele nieuwe processen ondersteunen die waarde toevoegen aan de gebruikerservaring.
- Identificeer olifantenpaden: Processen zijn zelden lineair. Werkprocessen vaak verborgen shortcuts en alternatieve routes. Het herkennen en begrijpen van deze alternatieve processen is cruciaal voor het fundament van je AI-project. In ons project van Kamervragen bleek dat – naast het officiële, gestandaardiseerde proces van Kamervragen – ook alternatieve routes bestaan, zoals 2-minuten-debatten en mondelinge vragen. Deze twee aanpalende processen bleken een andere benadering nodig te hebben.
- De rol van AI in je proces: AI kan verschillende rollen aannemen binnen een proces, variërend van volledig autonome assistent die zelf beslissingen neemt tot een ondersteunende assistent. Het is van cruciaal belang om te bepalen hoe AI het beste kan bijdragen aan het proces. In ons Kamervragen-voorbeeld kiezen we bewust om AI een ondersteunende rol in het proces te geven en beleidsmedewerkers zelf te laten beoordelen wat het beste antwoord is op een Kamervraag. Waarom we dat doen, bespreken we later in meer detail in blog 5 over de “verantwoorde inzet van GenAI”.
Het definiëren van deze aspecten is cruciaal voor de ontwikkeling van een AI-systeem dat aansluit bij de gebruikersbehoeften en bestaande processen.
Conclusie
Dit blog heeft je meegenomen door het belang van de technische randvoorwaarden voor Generatieve AI-projecten. We hebben gekeken naar de cruciale onderdelen: data, processen en systemen. In het volgende blog verdiepen we ons in het kiezen van het juiste AI-model dat op dit fundament kan bouwen.
Een aantal hoofdpunten uit dit blog:
- Je systemen, data en processen zijn het fundament voor het succes van een AI-project.
- Het verzamelen, pre-processen en beschikbaar stellen van data zijn essentiële stappen voor het realiseren van je (Gen)AI use case.
- Daarnaast heb je een combinatie van rekenkracht, gespecialiseerde infrastructuur, en de juiste tools nodig.
- Het is belangrijk om het proces en de “olifantenpaadjes” in kaart te brengen.
- Je hoeft niet alle technische randvoorwaarden voor je Generatieve AI zelf te ontwikkelen, want veel is in te kopen en onder licenties te gebruiken.
Direct alle inzichten?
Wil je niet wachten tot alle blogs online staan? Vraag dan direct onze whitepaper over deze serie aan.
Vooruitblik
In de volgende blogs nemen we je mee door alle stappen en overwegingen voor een succesvolle implementatie van GenAI in jouw organisatie. We voorzien je van de benodigde kennis en tools om in jouw organisatie een succesvol AI-project op te zetten. Dus blijf ons volgen en schrijf je in voor de volgende blogs via het formulier hieronder!
Blog 1
Introductie in Generatieve AI
In het intro-blog behandelen we het concept Generatieve AI: Wat is Generatieve AI? We geven een introductie in Generatieve AI: wat het is, hoe het werkt en welke kansen en uitdagingen er liggen bij het implementeren ervan in je organisatie.
Blog 2
Selecteer je use case
In het tweede blog gaan we in op het onderzoek naar en de selectie van een geschikte use case. Hierbij gaan we in op valkuilen bij het kiezen van use cases en het belang om een oplossing voor een probleem te zoeken en niet andersom.
Blog 3
Het fundament van je AI-project
In het derde blog gaan we in op het fundament van ieder succesvol AI-project: de informatievoorziening. Ook voor AI geldt; “garbage in, garbage out”. Het gaat hier niet alleen de AI-modellen die je gebruikt, maar juist ook de data en systemen die deze modellen voeden.
Blog 4
Selecteer, train en tune
je AI-model
In het vierde blog gaan we in op het trainen en tunen van je AI-model voor je use-case. Voor de meeste use-cases is meer nodig dan een “off-the-shelf” oplossing. Het trainen en/of tunen van je taalmodel voor jouw use-case maakt een groot verschil.
Blog 5
Verantwoord inzetten van AI
In het vijfde blog gaan we in op ethische en maatschappelijke overwegingen, zoals privacy en algoritme-bias. Technologie is op zich niet “goed” of “slecht”, maar een verkeerde implementatie kan onnodig risico’s met zich meebrengen. Wij betogen voor een verantwoorde en mensgerichte inzet van AI.
Blog 6
Valideer de haalbaarheid, wenselijkheid en levensvatbaarheid
In het zesde blog gaan we in op het innovatieve aspect van Generatieve AI-projecten en hoe je de relevantie en waarde van je use-case valideert. Onze Data Discovery Sprint geeft hier om een snelle, nauwkeurige, mensgerichte en snelle manier invulling aan.
Blog 7
Begeleid je organisatie in het werken met Generatieve AI
In het zevende blog gaan we in op hoe je mensen in je organisatie leert werken met AI. Een succesvolle implementatie vraagt ook om een gedegen implementatiestrategie met oog voor de technologie, werkprocessen en de mensen die ermee werken.
Blog 8
Recap: Geleerde lessen van de blogserie
In het laatste blog vatten we alle geleerde lessen samen en blikken we vooruit op het vervolg na deze blogserie.