Technique · 7 min de lecture

Texte dans une image ou un PDF : pourquoi l'IA ne le lit pas

Q: Les IA peuvent-elles lire le texte contenu dans une image ?

En pratique, pas de façon fiable. Quand une IA construit une réponse citée, elle s'appuie sur le texte HTML de la page, pas sur les pixels d'un visuel. Un argument, un chiffre ou une mention de prix enfermés dans une infographie ou une capture d'écran ont donc toutes les chances de rester invisibles. Pour être pris en compte, ce texte doit aussi exister en clair dans la page.

Q: Un PDF peut-il être cité par ChatGPT ou Perplexity ?

Un PDF peut être lu s'il contient du texte sélectionnable et qu'il est correctement accessible, mais il part avec un handicap : il est plus lourd à parcourir, souvent mal structuré, et moins favorisé qu'une page web propre. Si une information compte vraiment pour votre visibilité, mieux vaut qu'elle vive sur une page HTML, le PDF venant en complément téléchargeable.

Q: À quoi sert le texte alternatif (alt) des images pour le GEO ?

Le texte alternatif décrit en mots ce que montre une image. Il aide une IA à comprendre le rôle du visuel et à relier l'image à son sujet. Ce n'est pas un substitut au texte de la page, mais c'est un signal utile : une image bien décrite renforce le contexte, une image sans description est un trou d'information pour la machine.

Vous avez soigné votre plus belle infographie : vos chiffres, vos arguments, votre comparatif, tout y est. Le problème, c'est que pour une IA, cette image est une porte fermée. Le texte qu'elle contient n'existe quasiment pas. Voici pourquoi le contenu enfermé dans vos visuels et PDF passe sous le radar de ChatGPT, Perplexity, Claude et Gemini — et comment lui rendre la parole.

Par Yanis · Founder GOXA Publié le 10 juin 2026 Mis à jour 10 juin 2026

Une IA ne « regarde » pas votre page comme un humain. Quand elle construit une réponse citée, elle s'appuie d'abord sur le texte de la page — les mots qu'elle peut lire, structurer et recopier. Et là est le piège : un argument décisif peut être parfaitement visible à l'œil… tout en étant totalement absent pour la machine, simplement parce qu'il est dessiné dans une image au lieu d'être écrit dans la page.

L'essentiel en une phrase

Si une information compte pour votre visibilité, elle doit exister en texte réel dans la page. Enfermée dans une image, une capture d'écran ou un PDF, elle devient une preuve que personne — surtout pas l'IA — ne peut citer.

Pourquoi une image est un mur pour une IA ?

Pour vous, une infographie qui annonce « 3× plus de demandes en 90 jours » est une phrase. Pour le moteur qui indexe votre page, c'est un bloc de pixels : aucun mot à extraire, aucune phrase à reprendre dans une réponse. Même quand un modèle est capable de « décrire » une image, ce n'est pas ce mécanisme qui décide de vous citer dans une réponse texte — celui-ci se nourrit du contenu écrit de la page.

Résultat : tout ce que vous avez mis dans le visuel — un chiffre clé, une liste d'avantages, le nom de votre offre, une mention de prix — a de fortes chances de ne jamais remonter. Vous croyez avoir communiqué l'information ; en réalité, vous l'avez cachée dans un format que la machine ne sait pas lire.

Le cas particulier (et trompeur) du PDF

Le PDF donne une fausse impression de sécurité : « c'est du texte, donc ça se lit ». Parfois, oui. Mais le PDF part avec plusieurs handicaps face à une simple page web :

Le faux texte. Beaucoup de PDF sont en réalité des images scannées ou exportées : ce que vous prenez pour du texte n'est pas sélectionnable, donc pas lisible par la machine.
La structure cassée. Titres, colonnes, tableaux : un PDF mélange souvent l'ordre de lecture. L'IA peine à comprendre ce qui répond à quoi.
Le format défavorisé. À information égale, une page HTML propre est plus facile à parcourir, à comprendre et à citer qu'un fichier lourd à télécharger.

Le PDF n'est pas l'ennemi — c'est un excellent complément téléchargeable. Mais s'en servir comme support principal d'une information importante, c'est la ranger dans un tiroir que l'IA ouvre rarement.

Quels contenus sont les plus souvent « enfermés » ?

Contenu	Souvent piégé dans…	Risque
Chiffres clés, résultats	Infographie, image	Invisible à la citation
Comparatif, tableau de prix	Capture d'écran, visuel	Non comparable par l'IA
FAQ, mode d'emploi	PDF non structuré	Mal compris, peu repris
Témoignages, avis	Image de citation	Aucune valeur de preuve lue
Coordonnées, zone d'intervention	Visuel de contact	Identité floue pour l'IA

Le réflexe à avoir : pour chaque visuel important, demandez-vous « si cette image disparaissait, l'information serait-elle toujours écrite quelque part dans la page ? ». Si la réponse est non, vous avez un trou.

Comment rendre cette information citable ?

La logique est simple : l'image illustre, le texte informe. Le visuel reste utile pour l'humain, mais il ne doit jamais être le seul porteur d'une information qui compte. Concrètement, l'esprit à adopter :

Doublez chaque visuel d'un texte réel. Le chiffre de l'infographie doit aussi figurer en clair dans un paragraphe ; le comparatif en image doit exister en tableau HTML lisible.
Décrivez vos images (texte alternatif). Le alt n'est pas un détail d'accessibilité : c'est la phrase qui dit à la machine ce que montre l'image et à quoi elle se rattache.
Faites vivre l'information sur une page HTML, le PDF venant en téléchargement complémentaire — jamais l'inverse.

Le principe

Une belle image qui « parle » à vos clients ne parle pas à l'IA. Tant que l'information n'existe qu'en pixels, elle ne pèse rien dans une réponse générée. Le visuel séduit ; c'est le texte qui se fait citer.

Pourquoi ça change tout pour votre visibilité

La plupart des entreprises ne souffrent pas d'un manque de contenu : elles souffrent d'un contenu mal logé. Leurs meilleurs arguments sont là, sur le site, mais rangés dans des formats que la machine ne sait pas lire. Déverrouiller ces informations — les sortir des images et des PDF pour les écrire noir sur blanc — fait souvent remonter une visibilité qui semblait coincée, sans produire la moindre ligne de contenu nouveau. C'est l'un des angles morts les plus fréquents que l'on corrige dans nos audits.

Audit GEO offert — on repère vos informations « enfermées »

On passe votre site au crible pour trouver les arguments, chiffres et preuves piégés dans des images ou des PDF, on évalue ce que les IA lisent réellement de vous, et on vous livre un plan d'action clair sur 90 jours pour rendre tout ça citable. Sans engagement, livré en 24 à 48 h.

Je veux mon audit

Questions fréquentes

Les IA peuvent-elles lire le texte contenu dans une image ?

En pratique, pas de façon fiable pour décider d'une citation. Une IA qui construit une réponse s'appuie sur le texte HTML de la page, pas sur les pixels d'un visuel. Un chiffre ou un argument enfermé dans une infographie a toutes les chances de rester invisible : pour compter, il doit aussi exister en clair dans la page.

Un PDF peut-il être cité par ChatGPT ou Perplexity ?

Oui s'il contient du vrai texte sélectionnable et qu'il est accessible, mais il part avec un handicap : plus lourd, souvent mal structuré, moins favorisé qu'une page web propre. Si une information compte vraiment, mieux vaut qu'elle vive sur une page HTML, le PDF servant de complément téléchargeable.

À quoi sert le texte alternatif (alt) des images pour le GEO ?

Il décrit en mots ce que montre l'image et aide l'IA à comprendre son rôle et son sujet. Ce n'est pas un substitut au texte de la page, mais un signal utile : une image bien décrite renforce le contexte, une image sans description est un trou d'information pour la machine.