Conférences de Philippe Yonnet CEO de Neper à l'occasion du Matin Népérien du 7 juillet 2021
Actualité du Search Marketing
Le rôle de l'IA dans l'algorithme de Classement de Google
4. Le programme :
10h00 : introduction
10h10 : actualités du Search Marketing
10h30 : L'IA dans l'algorithme Google ? Adaptez-vous ! (Philippe Yonnet - NEPER)
11h00 : Un bon contenu, la base pour se référencer (Nicolas Audemar – SISTRIX)
11h30 : Comment rendre les pages produits de commerce électronique unique et
attractives ? (Anthony Techer – SEO QUANTUM)
12h00 : conclusion
9. Le groupe Neper
Agence conseil en digital
marketing
Solutions SaaS de digital
marketing
Formations et événements
en marketing digital.
Search Y Paris
Search Y Genève
Les rendez-vous incontournables du
Search Marketing en Europe
Solutions
10. Actualités du SEO et du Digital
Marketing
Philippe YONNET
CEO Groupe Neper
Where Search Marketing meets Science
11. Bing lance une API de soumission de contenu
https://www.bing.com/webmasters/url-
submission-api
https://blogs.bing.com/webmaster/may-
2021/Easy-set-up-guide-for-Bing%E2%80%99s-
Content-Submission-API-(Beta)
Présenté en détail lors de l’événement Search Y
12. Les updates de Google se succèdent depuis avril
La product review update
Plusieurs updates non confirmées en mai
Core Update de Juin
La Predator Update
La Page Experience Update
Spam update V1
Spam update V2
Core Update de juillet
13. La « product review update »
Impacte les sites de comparatifs et de tests de produits et services
https://www.neper.fr/2021/04/15/avis-de-tempete-pour-les-sites-de-tests-et-de-comparatifs-sur-les-produits/
14. Les mises à jour de mai
https://www.neper.fr/2021/05/28/une-nouvelle-mise-a-jour-fantome-de-
lalgorithme-de-google-les-22-23-mai/
Pic de changements dans les classements les 1er mai, 19 mai, 20 au 23 mai, 26 mai !
Sites impactés : sites sensibles aux « quality updates » ?
Non officiellement confirmées, mais gros impact
15. La Core Update de juin
Pas d’infos réutilisables lâchées par
Google sur cette update
Mise à jour présentée comme découpée en 2
phases : en juin et en juillet
Impact sérieux, mais du même ordre de
grandeur que les principales updates de
mai
Première update officielle depuis décembre 2020
16. La « predator » update
Déclassement de sites pratiquant le chantage au
retrait de pages diffamantes ou infâmantes
Remarque : il était temps que Google se saisisse du
problème
Impact hyper ciblé
17. La page expérience update
Prévue en mai, repoussée en juin
Déploiement progressif de mi juin à
fin août
Très médiatisée depuis un an, impact
faible
Mais : travaillez votre page
experience update, c’est utile dans
l’absolu
https://www.neper.fr/2021/06/20/le
-deploiement-de-la-page-experience-
update-a-commence/
https://www.neper.fr/2021/04/22/nouveau-calendrier-pour-la-page-experience-update/
19. Les deux « spam updates »
https://www.neper.fr/2021/06/24/
deux-spams-updates-en-juin/
https://www.neper.fr/2021/07/01/
deuxieme-spam-update/
Première spam updates officielles depuis des années (depuis… 2014 !)
20. La Core Update de Juillet
Pas encore assez de recul pour comprendre l’impact
Un impact rapide et important
21. Au programme :
• Nos brèves hebdomadaires
• Nos différents évènements
• Nos vidéos
• Nos actualités
Entrez votre email sur la page d’accueil du site Neper
Abonnez-vous à notre newsletter
23. FLOC fera-t’il un FLOP
Prévu initialement au printemps 2022, la fin du support des cookies tiers par Chrome a
créé une course aux armements pour créer des alternatives
24. Google cherche à imposer son outil : FLOC
L’idée : identifier des cohortes
d’utilisateurs partageant le même
comportement
Les données individuelles ne sont pas
conservées / exploitées
L’outil fonctionne avec du machine
learning
Algorithmes de clustering non supervisés
https://www.neper.fr/2021/01/29/google-lance-floc-federated-learning-of-cohorts-une-alternative-aux-
cookies/
25. Mais la plupart des acteurs du web sont contre
Wordpress : blocage par défaut – Amazon : blocage
https://amifloced.org/
Seul Twitter est prêt à rejoindre l’initiative (timidement)
26. L’arrêt du support des cookiers tiers repoussé
https://www.neper.fr/2021/06/28/la-fin-du-support-des-cookies-tiers-par-chrome-
lecheance-est-repoussee-de-plus-dun-an/
C’est prévu maintenant pour le deuxième semestre 2023 (si tout va bien)
27. L’ADLC inflige une pénalité de 220 millions d’euros à
Google pour des pratiques anti concurrentielles sur AdX
https://www.neper.fr/2021/06/13/ladlc-inflige-une-penalite-de-220-millions-deuros-a-google-pour-des-
pratiques-anti-concurrentielles-sur-adx/
29. Good news : les regex supportées dans la GSC
https://www.neper.fr/2021/06/08/le-support-des-
regex-sameliore-dans-la-google-search-console/
https://www.neper.fr/2021/04/07/regex-dans-la-
gsc/
31. Google se veut une entreprise AI First
2016, Sundar Pichai :
“Computing is evolving again. We
spoke last year about this important
shift in computing from a mobile-first to
an AI-first approach. … In an AI-first
world, we are rethinking all our
products and applying machine
learning and AI to solve user
problems.” —Sundar Pichai
34. Ils sont également très forts dans les services et les
outils pour l’IA
Cloud TPU, TPU (puces spécialisées pour les tâches liées à l’IA
Tensor Flow (outil open source d’apprentissage automatique
35. Mais dans l’algorithme de classement…
Salton, années 70
Un axe par terme
Des coordonnées pour un document
calculées par le poids des termes
contenus dans le document
Pour calculer le poids on se base sur
tf*idf ou un dérivé
Pour calculer la similarité lexicale entre
une requête et un document, on utilise
la similiarité cosinus
Le gros du travail est encore fait avec de vieux, très vieux outils
36. Cette méthode a plein de défauts
C’est un modèle dit « en sac de mots »
on ne tient pas compte de l’ordre des mots (mais
alors pas du tout)
On estime pertinent un document qui
présente une forte similarité lexicale avec
la requête
Si la requête est une question, un document
pertinent doit contenir la question !!!
Il n’y a aucune prise en compte du sens des
termes
37. Donc cela fait vingt ans que l’on cherche de
meilleurs modèles de langue
Un modèle de langue (ou modèle de
langage) est un modèle statistique
permettant de décrire numériquement
la distribution de séquences de mots ou
de symboles.
Un modèle de langue permet
typiquement de prédire quel terme a la
plus grande probabilité d’apparition à
côté d’un autre terme
38. Le projet : mieux tenir compte du contexte dans
lequel un terme apparait
Années 2000
Latent Dirichlet Allocation / LSA
Identification de topics d’appartenance
Application type : Adsense
LSI Latent Semantic Indexing
Correlations d’ordre 2, ACP
Une cuistrerie en SEO
http://s.billard.free.fr/referencement/?2006/10/09
/296-ne-prenez-pas-lsi-pour-des-lanternes-par-
philippe-yonnet
Sauf que pour l’algorithme : bof !
39. Les premières applications de l’IA pour l’algorithme
ont été du machine learning pour créer des filtres
Panda : machine learning semi-supervisé (2010)
Support Vector Machines
40. Cette approche est probablement utilisée de
manière beaucoup plus étendue
Penguin
Calcul de scores Panda / Penguin pour
les pages
Calcul de scores de qualité sur la base
des données des quality raters
Réutilisation dans les « phantom updates » ?
Medic ?
Core Updates ?
41. Le machine learning et la détection du linkspam
“So for such low quality or spammy content,
it's relatively easy. If you're a person and you
look at a page that's full of gibberish, or in
this case, guest books with spammy posts,
you should be able to say that emphatically,
"Yes, this is spam," within seconds. Even if
it's more complicated, with a trained eye, it
should take less than a minute to determine
something is spammy or not. And as Google,
we have all these signals and all this data
that we've accumulated and analyzed and
studied over the years. So, you know, it's
entirely possible to collect those datas to
study it and build things like machine-
learning models to tackle spam.”
Dewey, Search Quality Team member - Google
42. Mais en parallèle, de nouveaux modèles de langue
ont été inventés
Word Embeddings et Word2vec
2013, Mikolov (Google)
L’idée : utiliser un réseau de neurones
pour calculer directement les
coordonnées de chaque terme en
Beaucoup plus efficace que toutes les
méthodes testées jusqu’ici
Le système trouve la meilleure projection
possible sur des dimensions réduites
44. Premières applications
Google Translate
Rankbrain 2015
Expansions de requête pour déclencher la
bonne détection de l’intention de requête sur
des requêtes inconnues
“RankBrain is one of the “hundreds” of
signals that go into an algorithm that
determines what results appear on a Google
search page and where they are ranked,
Corrado said. In the few months it has been
deployed, RankBrain has become the third-
most important signal contributing to the
result of a search query” Greg Corrado
Implémentation très très limitée des Word
Embeddings
45. Ce modèle a vite été dépassé
BERT Bidirectional Encoder
Representations from Transformers
Google 2018
Modèle prédictif bi-directionnel
Meilleures performances en
désambiguisation
Modèle plus riche (plus de
paramètres) avec plus de
possibilités pour une intégration
dans l’algorithme
Utilisation de modèles pré-entrainés à base de transformers
49. Il y’a de nombreux avatars de BERT
Smith
FlauBERT
CamemBERT
RoBERT
USE
xlNET
MT-dnn
Span BERT
Visual BERT
K BERT
HUBERT
…
Y compris pour le français
50. Quel rôle joue BERT dans l’algorithme de
classement
Un rôle limité
Visible uniquement sur les requêtes
riches en contexte ou formulées en
langage naturel ou dans le cadre de
scénarios conversationnels
Dans la plupart des cas, c’est le vieil
algo à base de similarité cosinus qui fait
remonter les résultats
Nouveauté depuis quelques mois :
Le passage ranking
51. Les modèles concurrents
Modèles préentrainés sur une quantité phénoménale de données et dotés d’un très
grand nombre de paramètres
Switch-c, GPT-3, Switch C, Turing NLG (Microsoft)
52. La course folle au nombre de paramètres
Ce n’est pas la solution ultime
Utilisation d’un bazooka pour tuer
une mouche
Grosses évolutions à attendre dans
les cinq ans qui viennent
53. MUM
Modèle préentrainé sur plusieurs
types d’actifs numériques : pages
web complètes, textes, images…
peut-être demain des videos
Présenté comme 1000 fois plus
puissant que BERT
Toujours au stade expérimental
Un modèle multimodal plus limité
54. MUM en action (proof of concept)
Meilleure compréhension du sens de la question, capacité à générer
une meilleure réponse
55. Conclusion
Le machine learning et l’IA envahit tout, et Google, qui se veut une entreprise AI First, est en
pointe sur le sujet
Pendant très longtemps, il y’a eu peu d’IA dans l’algorithme de classement.
L’essentiel des implémentations consiste en du machine learning semi supervisé pour détecter
du linkspam, du webspam ou des problèmes de qualité
Mais la montée en puissance des modèles de langue pré-entrainés est en train de tout changer
Le phénomène s’accélère : Word Embeddings (2013), Rankbrain (2015), BERT (2018), MUM
(2021) avec une concurrence de plus en plus vive
Pour le moment, leur emploi dans l’algorithme de classement de Google est limité, voire très
limité, mais vu la rapidité des progrès, cela risque de révolutionner la façon de faire du SEO en
quelques années
Plus d’optimisations on page à l’ancienne, plus de paradigme du mot clé
Il faudra être capable de créer une page qui soit la meilleure réponse possible à la question d’un
internaute
L’IA peut révolutionner le Search en quelques années ?