AI-modellen

Introductie

In deze blogserie over Generatieve AI schrijven we over zes succesfactoren voor ieder AI-project. We bespraken in de vorige blogs al het belang van een sterke use case en een solide technisch fundament. Deze week richten we op de derde van totaal zes succesfactoren: Het ontwikkelen en toepassen van AI-modellen voor jouw use case.

De keuze voor AI-modellen raken de kern van je (Gen)AI-project

Het kiezen van een AI-model is niet zomaar een technische keuze, maar een beslissing die de kern van je project raakt. Om deze keuze goed te kunnen maken, heb je een grondig begrip nodig van welke keuzes je hier hebt, welke technische uitdagingen deze modellen met zich meebrengen, hoe je model interacteert met je data en welke functie het AI-modellen hebben in je oplossing.

Met onze eerdere blogs als basis, duiken we nu dieper in de wereld van AI-modellen en onderzoeken we hoe je het best passende model voor jouw project selecteert.

Geen “one-size-fits-all”

Het toepassen AI-modellen is geen “one-size-fit-all”. Verschillende use cases vragen verschillende benaderingen. Het vergelijken van Kamervragen met eerdere vragen en antwoorden vereist bijvoorbeeld een andere benadering dan het formuleren van potentiële antwoorden op Kamervragen. En het voorspellen van de verwachte doorlooptijd van het beantwoorden van een Kamervraag vraagt weer een andere benadering dan het classificeren van Kamervragen in een specifieke categorie, thema of beleidsdirectie.

Elk van deze taken stelt unieke eisen aan het AI-model en de benadering die je kiest. En net zo essentieel als het vinden van een sterke use case voor (Gen)AI, is het verbinden van je use case aan het juiste AI-model een belangrijke succesfactor voor je AI-project. Dit blog gaat over de beschikbare AI-modellen en benaderingen en de overwegingen die je maakt in de keuze voor jouw AI-project.

Verschillende vormen van AI-modellen

Voordat we ingaan op de toepassing van diverse AI-modellen voor specifieke use cases, duiken we wat dieper in de wereld van AI-modellen. We definieerden Generatieve AI eerder als “een vorm van kunstmatige intelligentie waarbij algoritmen data genereren in plaats van alleen te analyseren.”. Hierbij gebruik je Deep Learning algoritmen. Naast Deep Learning zijn voor andere toepassingen Machine Learning algoritmen ook (en soms beter) geschikt. In het werken met AI is het belangrijk om het onderscheid te kennen tussen deze twee verschillende benaderingen. Maar wat zijn de belangrijkste verschillen daartussen?

Kunstmatige Intelligentie, Machine Learning en Deep Learning

De afbeelding hieronder toont het onderscheid tussen AI, Machine Learning en Deep Learning. Alle vormen die we bespreken vallen onder de “kapstok” van AI. Naarmate we meer in subsets van AI duiken, worden de systemen complexer en bevat het meer zelflerende capaciteiten.

AI-modellen | Taalmodellen | Blogserie GenAI

 

In de twee paragrafen hierna gaan we in op de verschillen tussen Machine Learning en Deep Learning en tussen Supervised en Unsupervised Learning.

Machine Learning vs Deep Learning

Er zijn twee verschillende benaderingen in het leren van patronen uit data: traditionele Machine Learning en Deep Learning. Maar wat zijn nu precies de verschillen tussen deze twee?

  • De manier waarop ze leren: Bij Machine Learning leren algoritmen van patronen en doen ze voorspellingen op nieuwe data. Deze modellen baseren zich veelal op ‘feature engineering’, een proces waarbij je handmatig belangrijke kenmerken selecteert waarvan het model kan leren. Bij Deep Learning leert het algoritme automatisch kenmerken uit ruwe data, zonder handmatige tussenkomst. Deze algoritmen leren complexe patronen herkennen door verschillende lagen te gebruiken, waarbij elke laag iets anders leert.
  • Hoe ze data verwerken: Bij Machine Learning is de kwaliteit van de data extra belangrijk, omdat de modellen afhankelijk zijn van zorgvuldig geselecteerde kenmerken. Deze aanpak werkt het best met kleinere hoeveelheden data. Deep Learning daarentegen leert de structuur van data automatisch te begrijpen, zonder dat er handmatig kenmerken hoeven te worden geselecteerd. Deze methode is effectiever bij het verwerken van grote hoeveelheden ruwe data.
  • De complexiteit en uitlegbaarheid van het model: Machine Learning-modellen zijn vaak eenvoudiger, zowel in hun opzet als in het begrijpen van hun werking. Maar, ze kunnen beperkt zijn in het herkennen van complexe patronen. Deep Learning-modellen, met hun vele parameters, zijn complexer en kunnen diepere en complexere relaties in data ontdekken. Dit maakt ze echter minder transparant en moeilijker te interpreteren, vooral omdat ze niet afhankelijk zijn van handmatige feature engineering.
  • Benodigde resources: Machine Learning-modellen vereisen over het algemeen minder rekenkracht en kunnen vaak getraind worden op standaardcomputers. Deep Learning-modellen daarentegen vereisen aanzienlijk meer rekenkracht, vanwege de complexiteit en omvang van de neurale netwerken die ze gebruiken. Dit maakt ze krachtiger, maar ook duurder en intensiever in het gebruik van computerbronnen.

Supervised vs Unsupervised Learning

Naast de verschillen tussen Machine Learning en Deep Learning, is er ook het verschil tussen ‘supervised’ en ‘unsupervised’ learning. Het gebruik van deze twee verschillende benaderingen staat los van het verschil tussen de twee eerder genoemde categorieën binnen AI.

  • Supervised Learning: Bij supervised learning wordt het model getraind op een gelabelde dataset. Dit betekent dat voor elk stukje data in de trainingsset (zoals een foto, tekstfragment, of geluidsopname) er een bijbehorend label of antwoord is (zoals ‘kat’, ‘positief’, of ‘muziek’). Het model leert vervolgens patronen te herkennen en associaties te maken tussen de data en de bijbehorende labels. Het doel is om het model zodanig te trainen dat het nauwkeurige voorspellingen of classificaties kan maken op nieuwe, ongelabelde data. Voorbeelden hiervan zijn classificatie- en regressie-algoritmen.
  • Unsupervised Learning: Unsupervised learning daarentegen, gebruikt geen gelabelde datasets. Het algoritme wordt losgelaten op een dataset zonder specifieke instructies over wat het moet vinden. Het doel is om onderliggende structuren of patronen in de data te ontdekken, zoals groepen van vergelijkbare data (clustering) of het identificeren van afwijkende data. Omdat er geen specifieke labels of ‘juiste antwoorden’ zijn, moet het model zelf de structuur in de data ontdekken. Voorbeelden hiervan zijn cluster- en associatie-algoritmen.

Vooraf getrainde AI-modellen

Steeds meer bedrijven grijpen naar zogenaamde ‘vooraf getrainde modellen’ voor hun AI-projecten, zoals GPT-4 van OpenAI en Llama van Meta. Wat zijn dit precies en waarom kiest men voor deze vooraf getrainde modellen?

Deze modellen zijn, zoals de naam al zegt, al getraind op grote hoeveelheden data voordat ze beschikbaar worden gesteld voor gebruik. Dit betekent dat je ze kunt inzetten zonder dat je zelf helemaal in de details hoeft te duiken van hoe ze getraind zijn. Ze hebben al geleerd om bepaalde patronen en kenmerken te herkennen in de data waarop ze zijn getraind.

Check de data die gebruikt is

Een belangrijke tip: check altijd de data die gebruikt is om deze modellen te trainen. Zorg ervoor dat deze data overeenkomt met het type data dat je in je eigen project gaat gebruiken. Zo weet je zeker dat het model goed past bij jouw specifieke toepassing.

Voordelen van vooraf getrainde modellen

Deze modellen zijn vaak een prima startpunt voor verdere AI-taken. Ze vertegenwoordigen doorgaans de nieuwste stand van zaken qua prestaties en worden vaak ontwikkeld door vooraanstaande onderzoeksinstellingen en bedrijven. Dit maakt het implementeren van maatwerk AI-oplossingen een stuk eenvoudiger.

Kosten

Hoewel vooraf getrainde modellen relatief makkelijk te gebruiken zijn, zijn ze vaak niet gratis. Meestal zijn ze toegankelijk tegen betaling van een maandelijks bedrag of een tarief gebaseerd op het aantal karakters of data dat je verwerkt.

Het juiste AI-model hangt af van je data

Welk AI-model je kiest, hangt mede af van de data waarmee je te maken hebt. De volgende elementen zijn bepalend voor de keuze van je AI-model:

  • De wijze waarop je data is gestructureerd. Als je data van meerdere bronnen gebruikt, is het belangrijk te verkennen in hoeverre die data vergelijkbaar is en op vergelijkbare wijze gestructureerd en opgeslagen.
  • Hoe is de data gelabeld? Onderzoek hier ook in hoeverre het nodig is om de data (aanvullend) te labelen of categoriseren en welke techniek daarvoor geschikt is. Als je data gedeeltelijk gelabeld is, kan je hiervoor supervised technieken inzetten. Indien dat niet het geval is, kan je mogelijk gebruik maken van unsupervised technieken, zoals topic-modeling.
  • Om welke soort data het gaat. AI-modellen zoals GPT’s kunnen met verschillende soorten data omgaan. Is het tekst, numeriek, beeldmateriaal, of een combinatie daartussen? Dit bepaald in grote mate de keuze voor een AI-model en de configuratie ervan.
  • De omvang van je data. Heb je te maken met honderden datapunten of honderdduizenden? En hoeveel context moet een AI-model kunnen hanteren en begrijpen voor je use case?

Zoals je leest, zijn er best wat overwegingen te maken voor het kiezen van het juiste AI-model. Deze overwegingen beïnvloeden de prestaties van je AI-model en ook hoe je het model traint en gebruikt.

Het juiste AI-model hangt af van je use case

We bespraken in de vorige paragrafen verschillende benaderingen van AI-modellen en de overwegingen die je kan maken voor specifieke modellen. In deze paragraaf brengen we deze inzichten naar de praktijk. We gebruiken hiervoor de use case van AI-gedreven ondersteuning voor Kamervragen. We koppelen een aantal functionele informatiebehoeften van ambtenaren naar verschillende vormen van AI die we hiervoor (kunnen) toepassen.

We gaan op hoofdlijnen in op de volgende use cases:

  • Het koppelen van (een set aan) Kamervragen aan categorieën of onderwerpen
  • Het voorspellen van de verwachte doorlooptijd voor het beantwoorden van Kamervragen
  • Het vergelijken van (een set aan) Kamervragen met eerder gestelde Kamervragen, antwoorden en relevante documenten
  • Het formuleren van potentiële antwoorden op (een set aan) Kamervragen

Voorbeeld 1: Het koppelen van (sets aan) Kamervragen aan categorieën, onderwerpen of Directies

Het koppelen van (sets aan) Kamervragen aan categorieën of onderwerpen noemen we een classificatietaak. Laten we voorstellen dat we een historische dataset hebben waarin sets aan Kamervragen die (handmatig) toegewezen zijn aan specifieke beleidsdirecties. En over al deze sets aan Kamervragen hebben we gegevens over de bewindspersoon aan wie de vraag is gesteld, de dossiers waaraan de Kamervragen zijn gelinkt en onderwerpen waarover deze Kamervragen gaan. We kunnen op basis van deze drie ‘features’ proberen nieuwe Kamervragen automatisch te categoriseren naar de juiste beleidsdirecties. Hiervoor leert het algoritme patronen te herkennen tussen deze features en past deze analyse toe op iedere nieuwe set aan Kamervragen. We passen hiervoor een supervised Machine Learning algoritme voor toe.

Voorbeeld 2: Het voorspellen van de verwachte doorlooptijd voor het beantwoorden van Kamervragen

Het voorspellen van de verwachte doorlooptijd voor het beantwoorden van een set aan Kamervragen noemen we een regressietaak. Regressietaken typeren zich door een lineair verband tussen de uitkomst en de features. Wanneer we hier de aanname doen dat het aantal vragen een lineair verband heeft met de gemiddelde doorlooptijd van het beantwoorden van een set aan Kamervragen, kunnen we een algoritme leren voorspellen hoe lang een Directie erover doet om een Kamervraag te beantwoorden. Wanneer ook het onderwerp en de betreffende bewindspersoon aan wie de Kamervraag wordt gesteld een modererend effect hierop heeft, kunnen we deze als feature meewegen in het model.

Voorbeeld 3: Het vergelijken van (sets aan) Kamervragen met eerder gestelde Kamervragen, antwoorden en relevante documenten

Wanneer we (sets aan) Kamervragen willen vergelijken met eerder gestelde Kamervragen en antwoorden, hebben we het over een clustertaak. Om een Kamervraag te kunnen vergelijken met andere teksten, zoals eerder gestelde Kamervragen, antwoorden en documenten, moeten we een algoritme eerst leren de teksten te interpreteren. Hiervoor zetten we verschillende Deep Learning algoritmen in die teksten omzetten in (numerieke) representaties van de tekst (dit zijn ‘vectoren’) en deze vectoren vervolgens met elkaar vergelijken.

Voorbeeld 4: Het formuleren van potentiële antwoorden op (sets aan) Kamervragen

Tot slot hebben we de use case van het formuleren van potentiële antwoorden op (sets aan) Kamervragen. Dit noemen we een generatietaak. Hiervoor volgen we gedeeltelijk de benadering voor het vergelijken van (sets aan) Kamervragen met eerder gestelde Kamervragen, antwoorden en relevante documenten, maar geven we een AI-taalmodel de opdracht om op basis van de vergelijkbare vragen, antwoorden en documenten – en aanvullend door ons ingegeven data en opdrachten, een potentieel antwoord op een Kamervraag te formuleren.

Conclusie

In deze blog hebben we de uitdagingen geïntroduceerd die gepaard gaan met het selecteren van een ideaal AI-model voor je use case. We benadrukken het begrijpen van de wisselwerking tussen je data, de functie van AI voor jouw project en de technische know-how. In de volgende blog gaan we dieper in op het maatschappelijke en ethische aspecten in het ontwikkelen van en werken met AI.

Een aantal hoofdpunten uit dit blog:

  • AI-modellen raken de kern van je AI-project
  • Er bestaat niet zoiets als “one-size-fits-all” in het toepassen van AI-modellen
  • Het is belangrijk om een goed begrip te hebben van de data die je gebruikt in je AI-project
  • Steeds meer organisaties bewegen naar vooraf getrainde AI-modellen (en dit heeft zowel voor- als potentiële nadelen)
  • In het implementeren van AI use cases heb je vaak combinaties van AI-modellen nodig
Taalmodellen | Blogserie GenAI

Direct alle inzichten?

Wil je niet wachten tot alle blogs online staan? Vraag dan direct onze whitepaper over deze serie aan.

    Vooruitblik

    In de volgende blogs nemen we je mee door alle stappen en overwegingen voor een succesvolle implementatie van GenAI in jouw organisatie. We voorzien je van de benodigde kennis en tools om in jouw organisatie een succesvol AI-project op te zetten. Dus blijf ons volgen en schrijf je in voor de volgende blogs via het formulier hieronder!

    Wat is Generatieve AI?

    Blog 1

    Introductie in Generatieve AI

    In het intro-blog behandelen we het concept Generatieve AI: Wat is Generatieve AI? We geven een introductie in Generatieve AI: wat het is, hoe het werkt en welke kansen en uitdagingen er liggen bij het implementeren ervan in je organisatie.

    AI Use Case

    Blog 2

    Selecteer je use case

    In het tweede blog gaan we in op het onderzoek naar en de selectie van een geschikte use case. Hierbij gaan we in op valkuilen bij het kiezen van use cases en het belang om een oplossing voor een probleem te zoeken en niet andersom.

    Fundament AI

    Blog 3

    Het fundament van je AI-project

    In het derde blog gaan we in op het fundament van ieder succesvol AI-project: de informatievoorziening. Ook voor AI geldt; “garbage in, garbage out”. Het gaat hier niet alleen de AI-modellen die je gebruikt, maar juist ook de data en systemen die deze modellen voeden.

    Taalmodellen

    Blog 4

    Selecteer, train en tune
    je AI-model

    In het vierde blog gaan we in op het trainen en tunen van je AI-model voor je use-case. Voor de meeste use-cases is meer nodig dan een “off-the-shelf” oplossing. Het trainen en/of tunen van je taalmodel voor jouw use-case maakt een groot verschil.

    Mensgerichte AI

    Blog 5

    Verantwoord inzetten van AI

    In het vijfde blog gaan we in op ethische en maatschappelijke overwegingen, zoals privacy en algoritme-bias. Technologie is op zich niet “goed” of “slecht”, maar een verkeerde implementatie kan onnodig risico’s met zich meebrengen. Wij betogen voor een verantwoorde en mensgerichte inzet van AI.

    Validatie op AI

    Blog 6

    Valideer de haalbaarheid, wenselijkheid en levensvatbaarheid

    In het zesde blog gaan we in op het innovatieve aspect van Generatieve AI-projecten en hoe je de relevantie en waarde van je use-case valideert. Onze Data Discovery Sprint geeft hier om een snelle, nauwkeurige, mensgerichte en snelle manier invulling aan.

    Blog 7

    Begeleid je organisatie in het werken met Generatieve AI

    In het zevende blog gaan we in op hoe je mensen in je organisatie leert werken met AI. Een succesvolle implementatie vraagt ook om een gedegen implementatiestrategie met oog voor de technologie, werkprocessen en de mensen die ermee werken.

    Samenvatting blogserie

    Blog 8

    Recap: Geleerde lessen van de blogserie

    In het laatste blog vatten we alle geleerde lessen samen en blikken we vooruit op het vervolg na deze blogserie.

    Wat is Generatieve AI? AI Use Case Fundament AI Taalmodellen Mensgerichte AI Validatie op AI Samenvatting blogserie

    Meer weten?

    Wil je meer informatie over het toepassen van AI-modellen in jouw Generatieve AI project? Gaetana gaat er graag met je over in gesprek.

    Wat is Natural Language Processing?

    In deze start van een blogreeks schrijft onze nieuwe collega Gaetana Ruggiero over Natural Language Processing: Wat is het en wat kan je ermee?

    Mijn standaard voice-command

    Hey Siri, kan je Björn bellen?

    “Hey Siri, kan je Björn bellen?”

    Dit is mijn standaard voice-command wanneer ik vastloop en tegen een programmeer probleem aanloop.

    Herken je dat een e-mail per ongeluk in je SPAM terecht komt? Dat komt door Natural Language Processing (ik kort het hierna af met “NLP”). En hoe komt Google zo snel met een antwoord op je vraag? Ook dat is NLP… En zo kan ik nog wel even doorgaan!

    Natural Language Processing is overal

    We zijn zo gewend aan het gebruik van onze telefoon en laptop dat we NLP inmiddels gebruiken zonder het te beseffen. Elke keer dat we Siri iets vragen, activeren we een NLP proces dat Speech Recognition heet. Onze telefoon kan audio-data vertalen naar tekst. De tekst vervolgens kan worden verwerkt en gebruikt om een antwoord te zoeken.

    Op een soortgelijke manier is een e-mail die in een spamfolder terechtkomt het resultaat van een NLP-classificatietaak die Spam Detection wordt genoemd. Met behulp van algoritmes schat een programma in of een e-mail wel of geen spam is. En tot slot: ook het feit dat Google de relevante resultaten voor onze zoekopdrachten ons toont, is te danken aan de kracht van NLP.

    Speech recognition, spam detection en het interpreteren van zoekopdrachten zijn slechts drie voorbeelden van NLP. NLP omvat nog veel meer gebieden. En deze komen stuk voor stuk terug in deze reeks.

    Deze eerste blogpost in de reeks is bedoeld als een inleiding tot NLP, aangevuld met voorbeelden van hoe we NLP bij JoinSeven gebruiken om inzicht te krijgen in tekstuele, politieke en beleidsdata in ons Dataplatform Heptagon en onze producten Elyn, Mila en Codi.

    “We gebruiken Natural Language Processing dagelijks zonder het ons te beseffen”

    Gaetana Ruggiero, Data Scientist bij JoinSeven

    NLP start bij het begrijpen en interpreteren van menselijke taal

    Een natural language is een menselijke taal, zoals het Nederlands of het Engels. Het woord natural wordt gebruikt in tegenstelling met de term artificial, die verwijst naar talen die kunstmatig door mensen zijn gecreëerd en meestal niet evalueren over tijd, zoals Esperanto (een kunstmatige taal gecreëerd door Lejzer Zamenhof in 1887).

    Met Programming bedoelen we het vermogen van mensen om met een computer te communiceren door hem te vertellen wat hij moet doen, d.w.z. door computerprogramma’s te schrijven. Natural Language Programming is dus de studie van natuurlijke taal vanuit een computationeel standpunt, waarvoor interactie tussen mens en machine nodig is.

    We zijn gewend aan woorden op een toetsenbord te typen. Maar hoe zorgen we ervoor dat een machine echt begrijpt wat we willen zeggen? We hebben een manier nodig om met de computer te communiceren in een taal die hij kan begrijpen. Zulke talen worden programmeertalen genoemd. Python is tegenwoordig de meest gebruikte programmeertaal voor NLP, maar niet de enige.

    Van tekst naar getallen

    Om een machine tekst te laten begrijpen, moeten woorden worden omgezet in een lijst van getallen. Het eerste wat we moeten doen is de tools die we nodig hebben ‘importeren’ in een Python notebook. In dit geval gaan we CountVectorizer gebruiken om woorden om te zetten in getallen. CountVectorizer is een tool dat zet een zin om in een vector van getallen, gebaseerd op de frequentie van de termen die erin voorkomen.

    Neem bijvoorbeeld de volgende zin:

    We kunnen deze zin omzetten in een reeks getallen, gebaseerd op het aantal keer dat elk woord in de zin voorkomt. We maken een vectorizer object, en geven de zin door als input. De vectorizer splitst de zin op in individuele woorden, en telt het aantal keren dat de woorden in de zin voorkomen.

    Het woord “ik” komt twee keer voor, terwijl de rest van de woorden één keer voorkomen. De zin zou worden voorgesteld door de vector [[1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1]]. Er zijn veel verschillende methoden om woorden en tekens als numerieke gegevens weer te geven, maar ze dienen allemaal hetzelfde doel: Woorden omzetten in een geschikte invoer voor een computerprogramma.

    En wat kun je dan doen met deze numerieke representatie van een zin?

    Als je de term NLP ooit bent tegengekomen, is het je misschien ook opgevallen dat het vaak samen wordt genoemd met de termen Machine Learning en Deep Learning. Machine Learning en Deep Learning zijn takken van Kunstmatige Intelligentie die gebaseerd zijn op het idee dat systemen van data kunnen leren, patronen kunnen identificeren en zelfs voorspellingen kunnen doen over nieuwe data.

    Een systeem (of een computerprogramma) in Machine Learning en Deep Learning wordt vaak een “model” genoemd. Je kunt je een model voorstellen als een doos waarin veel data kan worden geanalyseerd dankzij wiskundige bewerkingen.

    Wat is Natural Language Processing?

                     Wat is Natural Language Processing?

    De doos krijgt een input, in ons geval een tekst omgezet in numerieke data, en produceert op basis van wiskundige berekeningen een output.

    Als ik bijvoorbeeld wil voorspellen of het morgen gaat regenen in Amsterdam, kan ik mijn “weermodel” voeden met gegevens over het weer in Nederland van de afgelopen jaren. Dit proces heet training.

    De gegevens waarop ik het model train, bevatten informatie over de temperatuur op een bepaald moment van de dag, of het een regenachtige dag was of niet, de hoeveelheid regen, de UV-index, de windsterkte, locatiespecificaties, enzovoort. Elk van deze parameters wordt een feature genoemd. Ik kan mijn model vragen te voorspellen of het morgen gaat regenen door een paar features te geven om naar te kijken, zoals de temperatuur en de windsterkte van vandaag. Door te kijken naar data uit het verleden kan het model een voorspelling doen over het weer van morgen, in de vorm van een “ja/nee antwoord” of in de vorm van een waarschijnlijkheid.

    Bij Machine Learning kan het aantal features dat we het model vragen te bekijken variëren, en kan het worden aangepast voor verschillende experimenten (feature engineering). Bij Deep Learning daarentegen worden de modellen meestal beschreven als “zwarte dozen”. Niemand weet precies wat erin gebeurt, maar omdat ze meestal op veel meer data zijn getraind, kunnen ze in de meeste gevallen betere antwoorden geven op onze vragen.

    Hoewel het volledig geautomatiseerde processen lijken te zijn, is het bouwen van een model en het interpreteren van de resultaten ver van automatisch. In NLP, Machine Learning en Deep Learning speelt menselijke expertise nog steeds een grote rol, vooral omdat we vaak verschillende experimenten moeten uitvoeren om te begrijpen wat het model ons vertelt.

    Het zijn alle drie geweldige hulpmiddelen om inzichten te krijgen in grote hoeveelheden data, die moeilijk te verkrijgen zouden zijn als we ze handmatig zouden analyseren.

    En wat doen we met NLP, Machine Learning en Deep Learning bij JoinSeven?

    Bij JoinSeven geloven we in de waarde van openbare (tekstuele) data. We hebben het onze missie gemaakt om deze data toegankelijker te maken voor organisaties in de publieke en private sector.

    In ons platform Heptagon hebben we data verzameld van officiële overheidsbronnen, zoals de Tweede Kamer, Officiële Bekendmakingen en bibliotheken met Gemeenteraadsdocumenten. Door Natural Language Processing, kunnen we in ons dataplatform en onze producten (bijv. Codi):

    • Zoekopdrachten optimaliseren (Codi leert begrijpen waar je naar zoekt en vindt patronen en verbanden in teksten op basis van jouw zoekactie)
    • Teksten met elkaar vergelijken, bijvoorbeeld om snel antwoorden op eerder gestelde Kamervragen te ontdekken of dubbel gepubliceerde documenten te identificeren
    • Overheidsdocumenten classificeren en categoriseren, bijvoorbeeld op basis van de inhoud, beleidsterrein of publicerende organisatie
    • Documenten zonder expliciete verwijzing toch aan elkaar relateren door patronen in deze teksten te onderzoeken (bijvoorbeeld onderwerpen, clusters, organisaties of personen)
    • Automatisch samenvattingen creëren van lange documenten, zodat lezers niet het gehele document hoeven lezen om te begrijpen waar het in de kern over gaat en wat de conclusies zijn
    • Entiteiten (organisaties, locaties, personen, etc.) uit teksten halen en onderlinge relaties tussen deze entiteiten in kaart brengen
    • Automatisch dossiers aan relevante informatie klaarzetten voor ambtenaren bij het beantwoorden van Kamervragen, moties, rapporten en andere parlementaire processen (bijvoorbeeld eerdere antwoorden, kennis uit rapporten).

    Over al deze use-cases zal ik de komende periode schrijven. Daarbij ga ik in op het vraagstuk, onze aanpak en de resultaten uit onze experimenten. Is er een use-case waar je wil dat ik prioriteit geef? Laat het me weten!