Mix van aankoopmotivaties geeft online shoppers passende aanbevelingen uit een groot assortiment

27 juli 2016

Gepersonaliseerde productaanbevelingen in webshops of nieuwsbrieven zijn effectief, blijkt uit onderzoek. Maar als ze niet goed passend zijn, werken ze juist averechts. Voor grote webwinkels vormt dat een extra uitdaging. Veel bestaande algoritmes kunnen namelijk lastig uit de voeten met grote klantenbestanden en een breed assortiment. Ook wetenschappers hebben hun tanden inmiddels in dat probleem gezet. Econometrist Bruno Jacobs (Erasmus Universiteit Rotterdam) ontwikkelde samen met collega’s Bas Donkers en Dennis Fok een veelbelovende nieuwe aanpak die schaalbaar genoeg is voor elke Nederlandse webshop én prima voorspelresultaten geeft.

Customers who bought this item cartoon by Rina Piccolo

In de strijd om marktaandeel breiden de grote webwinkels hun assortiment steeds verder uit. Vaak niet alleen binnen de oorspronkelijke productcategorieen, maar ook ver daarbuiten. Zo vind je bij de Nederlandse big three (Bol.com, Wehkamp en Coolblue) net zo makkelijk tuingereedschap als verzorgingsproducten. Gepersonaliseerde aanbevelingen en aanbiedingen helpen de bezoeker wegwijs te maken en te prikkelen. Om ook tijdens het bezoek aan de site te kunnen inspelen op het zoekgedrag van de bezoeker is een razendsnel algoritme nodig.

Vergelijkbare klantprofielen lastig te vinden

De meeste webshops bepalen hun aanbevelingen met behulp van collaborative filtering technieken: een nieuwe klant krijgt aanbevelingen op basis van voorkeuren van andere klanten met een vergelijkbaar klantprofiel. Bij een heterogeen klantenbestand is het met deze technieken echter lastig om goede overeenkomsten te bepalen. Het nauwkeurig beschrijven van de heterogeniteit binnen een klantenbestand is nu juist de kracht van keuzemodellen. Deze modellen zijn echter niet goed toepasbaar op hele grote datasets. Opsplitsen van de dataset rekt de mogelijkheden van beide aanpakken wel wat op, maar leidt ook tot verlies van relevante informatie. Met hun nieuwe methode slaan Jacobs en collega’s een brug tussen deze twee benaderingen.

Van tekstdocumenten naar retail

Om het schaalbaarheidsprobleem te tackelen, maakte Jacobs een uitstapje naar tekstclassificatie. De hier gebruikte modellen werken met gigantische datasets. Zo werden via latent Dirichlet allocation (LDA) onder meer 8 miljoen Twitter-posts geanalyseerd op meer dan 5 miljoen verschillende woorden en ingedeeld op impliciete onderwerpen. Door zo’n impliciet onderwerp te beschouwen als aankoopmotivatie, maakte Jacobs een vertaalslag naar retail. Teksten worden gezien als klanten en de verzameling woorden vormt het assortiment.

Onderliggende aankoopmotivaties

Het LDA-model vertaalt de bestelhistorie van een klant naar aankoopmotivaties – denk bijvoorbeeld aan biologische producten, goedkope producten, producten voor babyverzorging en producten voor een gevoelige huid. Deze aankoopmotivaties vormen de basis voor nieuwe aanbevelingen. “Op basis van de klantgegevens past het model de relevantie van elke motivatie aan”, vertelt Bruno Jacobs. “Het mooie is dat je dus voortdurend met de volledige dataset kunt werken. Dat maakt LDA krachtig en flexibel.”

Extra klantinformatie toevoegen

De meeste klanten hebben een kleine bestelhistorie. Voorkeuren voorspellen is in zo’n geval lastig. Extra klantinformatie kan de voorspelkwaliteit van een model dan sterk verbeteren. Wie immers vanaf een website voor jonge ouders naar een webshop gaat, is vermoedelijk geïnteresseerd in babyproducten. Daarom breidden Jacobs en collega’s het LDA-model uit, zodat aanvullende klantinformatie kan worden toegevoegd. Het uitgebreide model biedt zo tevens een oplossing voor het cold-start-probleem: ook nieuwe bezoekers ontvangen al gepersonaliseerde aanbevelingen.

Uitstekende performance

Wat de nieuwe methode uniek maakt, is dat deze louter op basis van de bestelhistorie al prima resultaten boekt. Jacobs vergeleek de performance van het model met bestaande algoritmes. Op vier criteria (heterogeniteit, schattingscomplexiteit, voorspelkwaliteit en vereist geheugen voor real time voorspellingen) scoort het vergelijkbaar of beter dan een benadering via collaborative filtering. Toevoegen van extra klantinformatie verbetert de voorspelkwaliteit nog verder.

De grootste winst boekt de LDA-methode op het gebied van schaalbaarheid. De modellen kunnen makkelijk uit de voeten met een assortiment van 500 producten (of geaggregeerde productgroepen) en een onbeperkt aantal klanten. Met de nieuwe methode kan elke Nederlandse webshop zijn klantenbestand en assortiment doorrekenen. 

Referentie

Bruno J.D. Jacobs, Bas Donkers, Dennis Fok (2016), "Model-Based Purchase Predictions for Large Assortments", Marketing Science, 35-3, pp. 389-404

Labels: Grey