L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021

Where Digital Marketing meets Science
Mercredi 7 juillet 2021

Le programme :
10h00 : introduction
10h10 : actualités du Search Marketing
10h30 : L'IA dans l'algorithme Google ? Adaptez-vous ! (Philippe Yonnet - NEPER)
11h00 : Un bon contenu, la base pour se référencer (Nicolas Audemar – SISTRIX)
11h30 : Comment rendre les pages produits de commerce électronique unique et
attractives ? (Anthony Techer – SEO QUANTUM)
12h00 : conclusion

Where Search Marketing meets Science

Le groupe Neper
Agence conseil en digital
marketing
Solutions SaaS de digital
marketing
Formations et événements
en marketing digital.
Search Y Paris
Search Y Genève
Les rendez-vous incontournables du
Search Marketing en Europe
Solutions

Actualités du SEO et du Digital
Marketing
Philippe YONNET
CEO Groupe Neper

Bing lance une API de soumission de contenu
https://www.bing.com/webmasters/url-
submission-api
https://blogs.bing.com/webmaster/may-
2021/Easy-set-up-guide-for-Bing%E2%80%99s-
Content-Submission-API-(Beta)
Présenté en détail lors de l’événement Search Y

Les updates de Google se succèdent depuis avril
La product review update
Plusieurs updates non confirmées en mai
Core Update de Juin
La Predator Update
La Page Experience Update
Spam update V1
Spam update V2
Core Update de juillet

La « product review update »
Impacte les sites de comparatifs et de tests de produits et services
https://www.neper.fr/2021/04/15/avis-de-tempete-pour-les-sites-de-tests-et-de-comparatifs-sur-les-produits/

Les mises à jour de mai
https://www.neper.fr/2021/05/28/une-nouvelle-mise-a-jour-fantome-de-
lalgorithme-de-google-les-22-23-mai/
Pic de changements dans les classements les 1er mai, 19 mai, 20 au 23 mai, 26 mai !
Sites impactés : sites sensibles aux « quality updates » ?
Non officiellement confirmées, mais gros impact

La Core Update de juin
Pas d’infos réutilisables lâchées par
Google sur cette update
Mise à jour présentée comme découpée en 2
phases : en juin et en juillet
Impact sérieux, mais du même ordre de
grandeur que les principales updates de
mai
Première update officielle depuis décembre 2020

La « predator » update
Déclassement de sites pratiquant le chantage au
retrait de pages diffamantes ou infâmantes
Remarque : il était temps que Google se saisisse du
problème
Impact hyper ciblé

La page expérience update
Prévue en mai, repoussée en juin
Déploiement progressif de mi juin à
fin août
Très médiatisée depuis un an, impact
faible
Mais : travaillez votre page
experience update, c’est utile dans
l’absolu
https://www.neper.fr/2021/06/20/le
-deploiement-de-la-page-experience-
update-a-commence/
https://www.neper.fr/2021/04/22/nouveau-calendrier-pour-la-page-experience-update/

Les deux « spam updates »
https://www.neper.fr/2021/06/24/
deux-spams-updates-en-juin/
https://www.neper.fr/2021/07/01/
deuxieme-spam-update/
Première spam updates officielles depuis des années (depuis… 2014 !)

La Core Update de Juillet
Pas encore assez de recul pour comprendre l’impact
Un impact rapide et important

Au programme :
• Nos brèves hebdomadaires
• Nos différents évènements
• Nos vidéos
• Nos actualités
Entrez votre email sur la page d’accueil du site Neper
Abonnez-vous à notre newsletter

MUM, le nouveau modèle de langue de Google

FLOC fera-t’il un FLOP
Prévu initialement au printemps 2022, la fin du support des cookies tiers par Chrome a
créé une course aux armements pour créer des alternatives

Google cherche à imposer son outil : FLOC
L’idée : identifier des cohortes
d’utilisateurs partageant le même
comportement
Les données individuelles ne sont pas
conservées / exploitées
L’outil fonctionne avec du machine
learning
Algorithmes de clustering non supervisés
https://www.neper.fr/2021/01/29/google-lance-floc-federated-learning-of-cohorts-une-alternative-aux-
cookies/

Mais la plupart des acteurs du web sont contre
Wordpress : blocage par défaut – Amazon : blocage
https://amifloced.org/
Seul Twitter est prêt à rejoindre l’initiative (timidement)

L’arrêt du support des cookiers tiers repoussé
https://www.neper.fr/2021/06/28/la-fin-du-support-des-cookies-tiers-par-chrome-
lecheance-est-repoussee-de-plus-dun-an/
C’est prévu maintenant pour le deuxième semestre 2023 (si tout va bien)

L’ADLC inflige une pénalité de 220 millions d’euros à
Google pour des pratiques anti concurrentielles sur AdX
https://www.neper.fr/2021/06/13/ladlc-inflige-une-penalite-de-220-millions-deuros-a-google-pour-des-
pratiques-anti-concurrentielles-sur-adx/

Nouvel outil : Search Console Insights
https://www.neper.fr/2021/06/20/le-nouvel-outil-search-console-insights-une-gsc-pour-les-nuls/

Good news : les regex supportées dans la GSC
https://www.neper.fr/2021/06/08/le-support-des-
regex-sameliore-dans-la-google-search-console/
https://www.neper.fr/2021/04/07/regex-dans-la-
gsc/

L’intelligence artificielle
dans l’algorithme de classement
Philippe YONNET
CEO Groupe Neper

Google se veut une entreprise AI First
2016, Sundar Pichai :
“Computing is evolving again. We
spoke last year about this important
shift in computing from a mobile-first to
an AI-first approach. … In an AI-first
world, we are rethinking all our
products and applying machine
learning and AI to solve user
problems.” —Sundar Pichai

Leurs investissements sur l’intelligence artificielle
sont impressionnants

Google est en pointe sur le Deep Learning

Ils sont également très forts dans les services et les
outils pour l’IA
Cloud TPU, TPU (puces spécialisées pour les tâches liées à l’IA
Tensor Flow (outil open source d’apprentissage automatique

Mais dans l’algorithme de classement…
Salton, années 70
Un axe par terme
Des coordonnées pour un document
calculées par le poids des termes
contenus dans le document
Pour calculer le poids on se base sur
tf*idf ou un dérivé
Pour calculer la similarité lexicale entre
une requête et un document, on utilise
la similiarité cosinus
Le gros du travail est encore fait avec de vieux, très vieux outils

Cette méthode a plein de défauts
C’est un modèle dit « en sac de mots »
on ne tient pas compte de l’ordre des mots (mais
alors pas du tout)
On estime pertinent un document qui
présente une forte similarité lexicale avec
la requête
Si la requête est une question, un document
pertinent doit contenir la question !!!
Il n’y a aucune prise en compte du sens des
termes

Donc cela fait vingt ans que l’on cherche de
meilleurs modèles de langue
Un modèle de langue (ou modèle de
langage) est un modèle statistique
permettant de décrire numériquement
la distribution de séquences de mots ou
de symboles.
Un modèle de langue permet
typiquement de prédire quel terme a la
plus grande probabilité d’apparition à
côté d’un autre terme

Le projet : mieux tenir compte du contexte dans
lequel un terme apparait
Années 2000
Latent Dirichlet Allocation / LSA
Identification de topics d’appartenance
Application type : Adsense
LSI Latent Semantic Indexing
Correlations d’ordre 2, ACP
Une cuistrerie en SEO
http://s.billard.free.fr/referencement/?2006/10/09
/296-ne-prenez-pas-lsi-pour-des-lanternes-par-
philippe-yonnet
Sauf que pour l’algorithme : bof !

Les premières applications de l’IA pour l’algorithme
ont été du machine learning pour créer des filtres
Panda : machine learning semi-supervisé (2010)
Support Vector Machines

Cette approche est probablement utilisée de
manière beaucoup plus étendue
Penguin
Calcul de scores Panda / Penguin pour
les pages
Calcul de scores de qualité sur la base
des données des quality raters
Réutilisation dans les « phantom updates » ?
Medic ?
Core Updates ?

Le machine learning et la détection du linkspam
“So for such low quality or spammy content,
it's relatively easy. If you're a person and you
look at a page that's full of gibberish, or in
this case, guest books with spammy posts,
you should be able to say that emphatically,
"Yes, this is spam," within seconds. Even if
it's more complicated, with a trained eye, it
should take less than a minute to determine
something is spammy or not. And as Google,
we have all these signals and all this data
that we've accumulated and analyzed and
studied over the years. So, you know, it's
entirely possible to collect those datas to
study it and build things like machine-
learning models to tackle spam.”
Dewey, Search Quality Team member - Google

Mais en parallèle, de nouveaux modèles de langue
ont été inventés
Word Embeddings et Word2vec
2013, Mikolov (Google)
L’idée : utiliser un réseau de neurones
pour calculer directement les
coordonnées de chaque terme en
Beaucoup plus efficace que toutes les
méthodes testées jusqu’ici
Le système trouve la meilleure projection
possible sur des dimensions réduites

Des propriétés étonnantes avec les word
embeddings

Premières applications
Google Translate
Rankbrain 2015
Expansions de requête pour déclencher la
bonne détection de l’intention de requête sur
des requêtes inconnues
“RankBrain is one of the “hundreds” of
signals that go into an algorithm that
determines what results appear on a Google
search page and where they are ranked,
Corrado said. In the few months it has been
deployed, RankBrain has become the third-
most important signal contributing to the
result of a search query” Greg Corrado
Implémentation très très limitée des Word
Embeddings

Ce modèle a vite été dépassé
BERT Bidirectional Encoder
Representations from Transformers
Google 2018
Modèle prédictif bi-directionnel
Meilleures performances en
désambiguisation
Modèle plus riche (plus de
paramètres) avec plus de
possibilités pour une intégration
dans l’algorithme
Utilisation de modèles pré-entrainés à base de transformers

Il y’a de nombreux avatars de BERT
Smith
FlauBERT
CamemBERT
RoBERT
USE
xlNET
MT-dnn
Span BERT
Visual BERT
K BERT
HUBERT
…
Y compris pour le français

Quel rôle joue BERT dans l’algorithme de
classement
Un rôle limité
Visible uniquement sur les requêtes
riches en contexte ou formulées en
langage naturel ou dans le cadre de
scénarios conversationnels
Dans la plupart des cas, c’est le vieil
algo à base de similarité cosinus qui fait
remonter les résultats
Nouveauté depuis quelques mois :
Le passage ranking

Les modèles concurrents
Modèles préentrainés sur une quantité phénoménale de données et dotés d’un très
grand nombre de paramètres
Switch-c, GPT-3, Switch C, Turing NLG (Microsoft)

La course folle au nombre de paramètres
Ce n’est pas la solution ultime
Utilisation d’un bazooka pour tuer
une mouche
Grosses évolutions à attendre dans
les cinq ans qui viennent

MUM
Modèle préentrainé sur plusieurs
types d’actifs numériques : pages
web complètes, textes, images…
peut-être demain des videos
Présenté comme 1000 fois plus
puissant que BERT
Toujours au stade expérimental
Un modèle multimodal plus limité

MUM en action (proof of concept)
Meilleure compréhension du sens de la question, capacité à générer
une meilleure réponse

Conclusion
Le machine learning et l’IA envahit tout, et Google, qui se veut une entreprise AI First, est en
pointe sur le sujet
Pendant très longtemps, il y’a eu peu d’IA dans l’algorithme de classement.
L’essentiel des implémentations consiste en du machine learning semi supervisé pour détecter
du linkspam, du webspam ou des problèmes de qualité
Mais la montée en puissance des modèles de langue pré-entrainés est en train de tout changer
Le phénomène s’accélère : Word Embeddings (2013), Rankbrain (2015), BERT (2018), MUM
(2021) avec une concurrence de plus en plus vive
Pour le moment, leur emploi dans l’algorithme de classement de Google est limité, voire très
limité, mais vu la rapidité des progrès, cela risque de révolutionner la façon de faire du SEO en
quelques années
Plus d’optimisations on page à l’ancienne, plus de paradigme du mot clé
Il faudra être capable de créer une page qui soit la meilleure réponse possible à la question d’un
internaute
L’IA peut révolutionner le Search en quelques années ?

Nos dates
Matins Népériens :
• 17 Juin 2021
• 30 Septembre 2021
• 26 Novembre 2021
Neper_Group

Nous Contacter
contact@neper.fr
Neper_Group
+33 1 80 88 56 00
Neper_Group

L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021

Similaire à L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021 (20)

Plus de Philippe YONNET

Plus de Philippe YONNET (18)

L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021