TÜV Süd ISO 9001 Zertifiziertes Qualitätsmanagementsystem

📞 089 416126990
Suche schließen

Kann man generative KI-Modelle für Suchmaschinen ‚trainieren‘?

Keine Artikel mehr verpassen? Jetzt Newsletter abonnieren »

Erschienen in Nov I 2023 | Künstliche Intelligenz, SEO
Level: Beginner

Wie verändert sich SEO in Zeiten der künstlichen Intelligenz? Macht es Sinn, die Systeme hinter ChatGPT und Co. (LLM oder GAI) so zu optimieren, sodass die KI dir bevorzugt bestimmte Ergebnisse anzeigt? Und ist das überhaupt möglich? Die Agentur Aufgesang und unser Geschäftsführer Alexander Holl haben sich mit diesen Fragestellungen auseinandergesetzt. Diese Erkenntnisse möchten wir auf jeden Fall mit dir teilen.

Kann man KI-Modelle für SEO trainieren?

Du merkst sicher auch, wie sich die Landschaft des Online Marketings seit dem Aufkommen von KI-Modellen wie ChatGPT und BARD verändert hat. Diese Modelle, auch als Large Language Models (LLMs) oder Generative AI (GAI) bekannt, werden immer präsenter in Suchmaschinen. Viele Expert:innen im SEO-Bereich diskutieren über die Möglichkeiten, diese KIs gezielt für bessere Suchergebnisse zu nutzen. Einige sehen darin sogar die Zukunft der SEO. Die Agentur Aufgesang hat sich intensiv und sehr analytisch mit der Rolle von LLM- und GAI-Optimierung im SEO-Kontext auseinandergesetzt und auch kritische Stimmen aus der Data-Science-Szene berücksichtigt. Ein wirklich spannendes Thema, weswegen wir dir im folgenden die zusammengefassten Keyfacts des Artikels wiedergeben möchten.

Was versteht man unter LLMO und GAIO?

LLM ist ein Large Language Model, das die Kraft eines großen generativen Sprachmodells mit künstlicher Intelligenz nutzt. Es basiert auf neuronalen Netzwerken und der Transformer-Architektur. Es kann die natürliche Sprache verstehen, verarbeiten und selbst generieren. Diese Modelle werden mit immensen Textmengen trainiert und besitzen oft mehrere hundert Milliarden Parameter. Generative AI (Artificial Intelligence) ist eine Art von KI, die aus Anweisungen und bestehenden Informationen neue Inhalte erstellt. Beispiele für generierte Inhalte sind Texte, Bilder, Videos, Audiodateien, Programmiercodes, 3D-Modelle, molekulare Formen und vieles mehr.

Sind LLM und GAI dann das gleiche? Nein, denn nicht jedes generative KI-Tool nutzt LLMs, aber jedes LLM ist eine Form der generativen KI. Du kannst dir Generative KI wie eine breite Palette von KI-Typen vorstellen, die in der Lage sind, originelle Inhalte zu produzieren. Die Grundlage für generative KI-Tools sind dann KI-Modelle, wie zum Beispiel das Large Language Model (LLM).

In punkto SEO geht es nun darum, ob und wie sich GAI und LLM optimieren lassen, also LLM-Optimization und GAI-Optimization. GAIO und LLMO zielen darauf ab, dass Firmen ihre Marken und Artikel in den Ergebnissen führender Large Language Models wie GPT und Google Bard hervorheben, da diese Modelle künftig Kaufentscheidungen maßgeblich beeinflussen könnten.

Fragst du Bing Chat zum Beispiel nach den besten Skiern für einen ca. 85 kg schweren Fahrer, dann erhältst du folgende Ergebnisse:

Abfrage Bing Chat - Ergebnisse für Skier

Wie kommt Bing auf solche Vorschläge?

Die Empfehlungen von Bing Chat und anderen generativen KI-Tools nehmen stets den aktuellen Kontext in Betracht. Für ihre Vorschläge zieht die KI meist neutrale Sekundärquellen heran, wie Fachmagazine, Nachrichtenportale, Webseiten von Organisationen und öffentlichen Institutionen sowie Blogs. Die Ergebnisse der generativen KI beruhen auf statistischen Häufigkeitsanalysen. Je öfter Worte in den Datenquellen aufeinander folgen, desto größer ist die Chance, dass das vorgeschlagene Wort korrekt ist. Worte, die in den Trainingssets oft zusammen auftauchen, weisen eine höhere statistische oder semantische Ähnlichkeit auf.

Wie funktionieren LLMs?

LLMs wie GPT oder BARD, sind wie riesige Textversteh-Maschinen. Sie analysieren Unmengen von Texten und lernen, welche Wörter oft zusammen vorkommen. Das ist so, als würdest du schauen, welche Produkte oft zusammen gekauft werden.

Diese Modelle teilen Texte in kleinere Einheiten und ordnen sie in einem „gedanklichen Raum“ zu. Je öfter Worte zusammen auftauchen, desto häufiger liegen sie in diesem Raum. Obwohl die Modelle viel lesen, basieren sie mehr auf Zahlen als auf echtem Verständnis. Aber sie werden ziemlich gut darin, die Bedeutung von Texten zu „erfassen“.

LLMs haben zwei Hauptfähigkeiten: Sie können Texte verstehen, das nennt man NLU (Natural Language Understanding). Das ist so, als würdest du einen Blogbeitrag lesen und den Inhalt erfassen. Und sie können neue Texte erstellen, das nennt man NLG (Natural Language Generation). Stell dir vor, du schreibst einen neuen Beitrag basierend auf dem, was du gelesen hast.
Beim Trainieren dieser Modelle wird besonders darauf geachtet, dass sie Texte gut verstehen. Wenn sie dann gebeten werden, etwas zu schreiben, nutzen sie ihre NLG-Fähigkeit, um basierend auf ihrem Wissen neue Inhalte zu erstellen.

Ein weiterer wichtiger Punkt ist, wie diese Modelle bestimmte Begriffe, wie Namen von Personen oder Marken, erkennen. Das ist so, als würdest du in einem Text bestimmte Schlüsselwörter oder Markennamen hervorheben. Sie lernen, welche Bedeutung diese Begriffe haben und wie sie in verschiedenen Kontexten verwendet werden. Wenn sie dann Texte ausgeben, verwenden sie diese Begriffe basierend auf dem, was sie darüber gelernt haben. Einen detaillierten Einblick in diese Methodik gibt dir Aufgesang.

Kann man die Ergebnisse von generativer KI beeinflussen?

Zu dieser Frage gibt es laut Aufgesang bisher keine klaren Antworten, nur Vermutungen. Um das besser zu verstehen, hat der Autor Meinungen von Data-Science-Experten eingeholt, die wissen, wie diese großen Sprachmodelle funktionieren.

Heraus kam dabei zusammengefasst folgendes (die einzelnen Expertenmeinungen und Erklärungen liest du bei Aufgesang):

Trainingsdaten und Beeinflussung von LLMs:

  • Große kommerzielle Sprachmodelle haben nicht-öffentliche Trainingsdaten und sind auf Neutralität ausgerichtet.
  • Es ist schwierig, die Meinung in der KI zu beeinflussen, da über 50% der Daten diese Meinung reflektieren müssten.
  • Die Identifikation der genutzten Trainingsdatenquellen ist herausfordernd.

Herausforderungen und Dynamik:

  • Es gibt viele Hindernisse, wie Netzwerkverbreitung, zeitliche Faktoren, Feedback-Schleifen und Kosten.
  • Die Verzögerung bei Modellupdates erschwert die Beeinflussung.
  • LLMs sind gut in der Berechnung von Ähnlichkeiten, aber schwächer in sachlichen Antworten.

Optimierung und Integration:

  • Die Dynamik zwischen LLMs, Systemen wie ChatGPT und SEO bleibt konstant, aber die Optimierungsperspektive ändert sich.
  • Suchmaschinen wie Google und Bing werden verwendet, um qualitativ hochwertige Inhalte und Domains wie Wikipedia oder GitHub zu finden.
  • Die Integration von Modellen wie BERT in diese Systeme ist ein Fortschritt. Denn Googles BERT verändert die Art und Weise, wie Information Retrieval Nutzeranfragen und Kontexte versteht.
  • Die Bedeutung von Inhalten im LLM-Training wird durch Relevanz und Auffindbarkeit beeinflusst.

Techniken und Methoden:

  • Retrieval-Augmented Generation (RAG) nutzt externe Datenspeicher für bessere Antworten.
  • Web Crawling verbessert sowohl die Relevanz des Trainings von ChatGPT als auch die Suchmaschinenoptimierung. Mehr zu RAG liest du bei Microsoft.
  • Die RAG-Methodik optimiert Antworten durch die Verwendung von höher eingestuften Inhalten.

Ziel und Strategie:

  • Es geht darum, die Prioritäten von Systemen wie ChatGPT zu verstehen und Inhalte optimal für Erwähnungen in Antworten zu strukturieren.
  • Das Endziel ist die Optimierung für eine hybride Metasuchmaschine mit natürlichsprachlicher Schnittstelle.

Gibt es eine passende Auswahl für LLM-Trainingsdaten?

Vielleicht. Mit E-E-A-T und Ranking.
Wahrscheinlich nutzen die großen Sprachmodelle nur Daten von guten und vertrauenswürdigen Quellen. Dann könnte man mit Googles E-E-A-T-Konzept solche Quellen finden. Google könnte auch seinen Wissensspeicher nutzen, um Fakten zu prüfen und das Modell zu verbessern. Lese mehr über E-E-A-T in unserem Blog.

Die andere Idee ist es, Daten zu nutzen, die bei Suchanfragen ganz oben stehen. Denn eventuell werden Daten, die auf der Suchergebnisseite ganz oben stehen, eher für das Training genutzt. Dabei geht man davon aus, dass man nicht alles neu erfinden muss und Suchmaschinen die bekannten Methoden nutzen, um Daten auszuwählen. Das würde auch E-E-A-T beinhalten.
Aber Tests bei Bing Chat und SGE haben leider gezeigt, dass nicht immer klar ist, wie die Antworten der KI und die Quellen zusammenhängen.

Wir haben unseren Geschäftsführer und KI-Experten Alexander Holl gefragt, wie er über das Thema Optimierung für LLMs denkt:

Alexander Holl

“Das, was sich schon seit Jahren in der SEO abzeichnet, also die Optimierung der Website am langfristigen Nutzerinteresse (Googles-Konzept E-E-A-T), wird auch für die “Optimierung von großen Sprachmodellen” gelten. Dabei gibt es keine Abkürzung in die großen Sprachmodelle, sondern nur den langfristigen Aufbau von Expertise und Autorität zu einem Thema. Ich würde das Thema LLMO wie folgt angehen:

1) Zu welchen Themen möchte ich Experte sein? In der Regel sind das 1 bis 2 Themen.
2) Wo möchte ich wahrgenommen werden? Es gibt tausende großer Sprachmodelle, aber relevant sind im Augenblick nur GPT-3,5 und GPT-4 (Abfrage über ChatGPT) und PaLM 2 von Google (Abfrage über bard.google.com).
2) Werde ich bereits bei den großen Sprachmodellen wie ChatGPT, berücksichtigt?
3) Wie werde ich dort wahrgenommen und ausgespielt?
4) Wer wird (noch) zu meinem Thema in meinem Zielmarkt zur Kenntnis genommen?
5) Was sind mögliche Gründe für die Wahrnehmung anderer Experten bei den LLMs
6) Ableitung einer Strategie

Die gesonderte und explizite Optimierung für LLM würde ich nicht als Zielsetzung definieren. Aber du kannst es als neuen Ansatz nehmen, um noch einmal die eigene Expertise zu definieren und zu analysieren. Das ist sicher sehr sinnvoll und hilft dir auch bei allen Herangehensweisen, um dich mit deiner Expertise in den verschiedenen Digital-Marketing-Kanälen, insbesondere bei Google, zu positionieren.”

Fazit

Ob du mit LLM-Optimierung wirklich deine Ziele erreichen kannst, weiß niemand genau. Einige Experten sind skeptisch, andere glauben daran.

Wenn es funktioniert, könntest du:

  • Deine Medien als Trainingsquelle für diese Modelle nutzen.
  • Deine Marke und Produkte in wichtigen Medien erwähnen lassen.
  • Deine Marke mit anderen wichtigen Begriffen in diesen Medien verknüpfen.
  • Teil von Googles Wissensspeicher werden.

Je spezieller dein Markt ist, desto einfacher könnte es sein, dich mit deiner Marke zu positionieren. Aber in großen Märkten wird es schwieriger, weil viele große Marken viel Geld und Geschichte haben.

LLM-Optimierung braucht mehr Aufwand als normales SEO und muss gut geplant sein. Mehr dazu findest du im Artikel „Digital Authority Management“ von Aufgesang.

Große Marken könnten in Zukunft Vorteile haben, weil sie mehr Ressourcen für PR und Marketing haben.

Generell macht es auf jeden Fall Sinn, dass du dein SEO so professionell betreibst wie bisher. Dabei solltest du darauf achten, wie oft deine Marke oder Produkte mit anderen Begriffen zusammen genannt werden.

Welcher Weg der richtige ist, wird sich zeigen, wenn neue Tools und Modelle populär werden.

Den kompletten Artikel liest du bei Aufgesang.