Geschrieben von Jay: : FP
Zusammenstellung: Deep Tide TechFlow
Die Veröffentlichung des Bitcoin-Whitepapers im Jahr 2008 löste ein Überdenken des Vertrauenskonzepts aus. Anschließend erweiterte Blockchain seine Definition um den Begriff eines vertrauenswürdigen Systems und entwickelte sich schnell zu dem Argument, dass verschiedene Arten von Werten, wie individuelle Souveränität, Finanzdemokratisierung und Eigentum, auf bestehende Systeme angewendet werden könnten. Natürlich ist möglicherweise eine Menge Validierung und Diskussion erforderlich, bevor die Blockchain in der Praxis eingesetzt werden kann, da ihre Eigenschaften im Vergleich zu verschiedenen bestehenden Systemen möglicherweise etwas radikal erscheinen. Wenn wir jedoch hinsichtlich dieser Szenarien optimistisch sind, kann der Aufbau von Datenpipelines und die Analyse der wertvollen Informationen, die im Blockchain-Speicher enthalten sind, zu einem weiteren wichtigen Wendepunkt in der Entwicklung der Branche werden, da wir Web3 beobachten können, das es noch nie zuvor gab. Natives Geschäft Intelligenz.
In diesem Artikel wird das Potenzial von Web3-nativen Datenpipelines untersucht, indem Datenpipelines, die üblicherweise in bestehenden IT-Märkten verwendet werden, in eine Web3-Umgebung projiziert werden. Der Artikel erörtert die Vorteile dieser Pipelines, die Herausforderungen, die angegangen werden müssen, und die Auswirkungen dieser Pipelines auf die Branche.
„Sprache ist einer der wichtigsten Unterschiede zwischen Menschen und niederen Tieren. Es geht nicht nur um die Fähigkeit, Geräusche zu erzeugen, sondern auch darum, bestimmte Geräusche mit bestimmten Gedanken zu verknüpfen und diese Geräusche als Symbole für die Kommunikation von Ideen zu verwenden.“ – Darwin
Historisch gesehen gingen große Fortschritte in der menschlichen Zivilisation mit Innovationen beim Informationsaustausch einher. Unsere Vorfahren nutzten die gesprochene und geschriebene Sprache, um miteinander zu kommunizieren und Wissen an zukünftige Generationen weiterzugeben. Dies verschafft ihnen einen großen Vorteil gegenüber anderen Arten. Die Erfindung des Schreibens, des Papiers und des Druckens ermöglichte den breiteren Informationsaustausch, was zu großen Fortschritten in Wissenschaft, Technologie und Kultur führte. Insbesondere der Metalldruck der Gutenberg-Bibel mit beweglichen Lettern war ein Wendepunkt, da er die Massenproduktion von Büchern und anderen Druckmaterialien ermöglichte. Dies hatte tiefgreifende Auswirkungen auf die Anfänge der Reformation, die Demokratische Revolution und den wissenschaftlichen Fortschritt.
Die rasante Entwicklung der IT-Technologie in den 2000er Jahren ermöglichte uns ein tieferes Verständnis des menschlichen Verhaltens. Dies hat zu einer Veränderung des Lebensstils geführt, bei der die meisten Menschen heutzutage verschiedene Entscheidungen auf der Grundlage digitaler Informationen treffen. Aus diesem Grund bezeichnen wir die moderne Gesellschaft als „IT-Innovationszeitalter“.
Nur 20 Jahre nach der vollständigen Kommerzialisierung des Internets hat die Technologie der künstlichen Intelligenz die Welt erneut in Erstaunen versetzt. Es gibt viele Anwendungen, die menschliche Arbeit ersetzen können, und viele Menschen diskutieren darüber, welche Zivilisation die KI verändern wird. Manche leugnen es sogar und fragen sich, wie eine solche Technologie so schnell entstehen konnte, dass sie die Grundfesten unserer Gesellschaft erschüttern könnte. Obwohl es das „Mooresche Gesetz“ gibt, dass die Leistung von Halbleitern mit der Zeit exponentiell zunimmt, sind die durch das Aufkommen von GPT hervorgerufenen Veränderungen zu plötzlich, als dass man sie sofort erkennen könnte.
Interessanterweise ist das GPT-Modell selbst jedoch keine wirklich bahnbrechende Architektur. Andererseits würde die KI-Branche Folgendes als Haupterfolgsfaktoren für GPT-Modelle nennen: 1) Definieren Sie Geschäftsdomänen, die auf eine große Kundenbasis abzielen können, und 2) Modelloptimierung durch Datenpipelines – von der Datenaufnahme bis zum Finale Ergebnisse und ergebnisbasiertes Feedback von. Kurz gesagt, diese Anwendungen ermöglichen Innovationen, indem sie die Zwecke der Dienstbereitstellung verfeinern und Daten-/Informationsverarbeitungsprozesse verbessern.
Das meiste, was wir Innovation nennen, basiert tatsächlich auf der Manipulation gesammelter Daten, nicht auf Zufall oder Intuition. Wie das Sprichwort sagt: „In einem kapitalistischen Markt sind es nicht die Starken, die überleben, sondern die Überlebenden, die stark sind.“ Die heutigen Unternehmen sind hart umkämpft und der Markt ist gesättigt. Daher sammeln und analysieren Unternehmen alle Arten von Daten, um auch die kleinste Nische zu erobern.
Möglicherweise sind wir zu sehr von Schumpeters Theorie der „schöpferischen Zerstörung“ besessen und legen zu viel Wert darauf, Entscheidungen auf der Grundlage der Intuition zu treffen. Doch selbst große Intuition ist letztlich das Produkt der gesammelten Daten und Informationen eines Einzelnen. Die digitale Welt wird in Zukunft immer tiefer in unser Leben eindringen und immer mehr sensible Informationen werden in Form digitaler Daten präsentiert.
Der Web3-Markt erhält aufgrund seines Potenzials, Benutzern die Kontrolle über ihre Daten zu geben, große Aufmerksamkeit. Allerdings beschäftigt sich der Blockchain-Bereich, der die Basistechnologie von Web3 darstellt, derzeit eher mit der Lösung des Trilemmas (Deep Tide Note: Triangular Dilemma, also Sicherheits-, Dezentralisierungs- und Skalierbarkeitsprobleme). Damit neue Technologien in der Praxis überzeugen können, ist es wichtig, vielfältig nutzbare Anwendungen und Intelligenz zu entwickeln. Wir haben dies im Big-Data-Bereich beobachtet, und seit etwa 2010 haben sich die Methoden zum Aufbau von Big-Data-Verarbeitung und Datenpipelines erheblich weiterentwickelt. Im Kontext von Web3 müssen Anstrengungen unternommen werden, um die Branche voranzubringen und Datenflusssysteme aufzubauen, um datenbasierte Intelligenz zu generieren.
Welche Chancen können wir also von Web3-nativen Streaming-Systemen nutzen und welche Herausforderungen müssen wir bewältigen, um diese Chancen zu nutzen?
Kurz gesagt besteht der Wert der Konfiguration von Web3-nativen Datenströmen darin, dass zuverlässige Daten sicher und effizient an mehrere Entitäten verteilt werden können, sodass wertvolle Erkenntnisse gewonnen werden können.
Vertrauen ist die Grundlage dafür, dass verschiedene Einheiten miteinander interagieren und Entscheidungen treffen können. Wenn zuverlässige Daten sicher verteilt werden können, bedeutet dies, dass viele Interaktionen und Entscheidungen über Web3-Dienste getroffen werden können, an denen verschiedene Entitäten beteiligt sind. Dies trägt dazu bei, das Sozialkapital zu maximieren, und wir können uns im Folgenden mehrere Anwendungsfälle vorstellen.
3.2.1 Dienst-/Protokollanwendung
Regelbasiertes automatisiertes Entscheidungssystem – Protokolle verwenden Schlüsselparameter, um Dienste auszuführen. Diese Parameter werden regelmäßig angepasst, um den Servicestatus zu stabilisieren und den Benutzern das beste Erlebnis zu bieten. Allerdings kann das Protokoll den Dienststatus nicht immer überwachen und dynamische Änderungen an Parametern nicht rechtzeitig vornehmen. Das ist es, was der On-Chain-Datenfluss bewirkt. On-Chain-Datenströme können verwendet werden, um den Servicestatus in Echtzeit zu analysieren und den besten Parametersatz zur Erfüllung der Serviceanforderungen vorzuschlagen (z. B. die Anwendung eines automatischen Floating-Rate-Mechanismus für Kreditprotokolle).
3.2.2 Kooperations- und Governance-Initiativen
3.2.3 Netzwerkdiagnose
On-Chain-Daten bieten einzigartige Vorteile, die den Branchenwert steigern können. Um diese Vorteile jedoch voll auszuschöpfen, müssen viele Herausforderungen sowohl innerhalb als auch außerhalb der Branche bewältigt werden.
Es gibt keine Verbindungen zwischen aktuellen Web3-Datenprimitiven, sie extrahieren und verarbeiten Daten unabhängig voneinander. Dies macht es schwierig, mit Synergien in der Informationsverarbeitung zu experimentieren. Um dieses Problem anzugehen, stellt dieses Dokument eine im IT-Markt häufig verwendete Datenpipeline vor und ordnet vorhandene Web3-Datenprimitive dieser Pipeline zu. Dadurch wird der Anwendungsfall spezifischer.
Der Aufbau einer Datenpipeline ist wie der Prozess der Konzeptualisierung und Automatisierung sich wiederholender Entscheidungsprozesse im Alltag. Auf diese Weise stehen Informationen einer bestimmten Qualität leicht zur Verfügung und können für die Entscheidungsfindung genutzt werden. Je mehr unstrukturierte Daten verarbeitet werden müssen, je häufiger die Informationen verwendet werden oder je mehr Echtzeitanalysen erforderlich sind, können Zeit und Kosten für die Erlangung der für zukünftige Entscheidungen erforderlichen Proaktivität durch die Automatisierung dieser Prozesse eingespart werden.
Das obige Diagramm zeigt eine gängige Architektur für den Aufbau von Datenpipelines im bestehenden IT-Infrastrukturmarkt. Für Analysezwecke geeignete Daten werden aus der richtigen Datenquelle gesammelt und entsprechend der Art der Daten und den Analyseanforderungen in einer geeigneten Speicherlösung gespeichert. Data Lakes bieten beispielsweise Rohdatenspeicherlösungen für skalierbare und flexible Analysen, während Data Warehouses sich auf die Speicherung strukturierter Daten für Abfragen und Analysen konzentrieren, die für bestimmte Geschäftslogiken optimiert sind. Die Daten werden dann auf verschiedene Weise zu Erkenntnissen oder nützlichen Informationen verarbeitet.
Jeder Lösungslevel ist auch als Paketservice verfügbar. Es besteht auch ein zunehmendes Interesse an ETL-SaaS-Produktgruppen (Extract, Transform, Load), die die Prozesskette von der Datenextraktion bis zum Laden verbinden (z. B. FiveTran, Panoply, Hivo, Rivery). Die Reihenfolge ist nicht immer unidirektional und die Schichten können je nach den spezifischen Anforderungen der Organisation auf unterschiedliche Weise miteinander verbunden werden. Das Wichtigste beim Aufbau einer Datenpipeline ist die Minimierung des Risikos von Datenverlusten, die beim Senden und Empfangen von Daten an die einzelnen Serverebenen auftreten können. Dies kann durch eine optimierte Entkopplung der Server und den Einsatz zuverlässiger Lösungen zur Datenspeicherung und -verarbeitung erreicht werden.
Das zuvor vorgestellte konzeptionelle Diagramm der Datenpipeline kann auf die On-Chain-Umgebung angewendet werden, wie in der obigen Abbildung gezeigt. Es ist jedoch zu beachten, dass keine vollständig dezentrale Pipeline gebildet werden kann, da jede Grundkomponente in gewissem Maße davon abhängt Zentralisierte Off-Chain-Lösung. Darüber hinaus umfasst die obige Abbildung derzeit nicht alle Web3-Lösungen und die Grenzen der Klassifizierung können verschwimmen – beispielsweise umfasst KYVE nicht nur die Funktion als Streaming-Media-Plattform, sondern auch die Funktion eines Data Lake, was möglich ist wird selbst als Datenpipeline betrachtet. Auch Space and Time wird als dezentrale Datenbank klassifiziert, bietet aber API-Gateway-Dienste wie RestAPI und Streaming sowie ETL-Dienste.
4.2.1 Erfassung/Verarbeitung
Damit normale Benutzer oder dApps Dienste effizient nutzen/betreiben können, müssen sie in der Lage sein, Datenquellen, die hauptsächlich innerhalb des Protokolls generiert werden, wie Transaktionen, Status und Protokollereignisse, einfach zu identifizieren und darauf zuzugreifen. Auf dieser Ebene kommt eine Middleware ins Spiel, die bei Prozessen wie Orakeln, Messaging, Authentifizierung und API-Verwaltung hilft. Die wichtigsten Lösungen sind wie folgt.
Streaming-/Indexierungsplattform
Bitquery, Ceramic, KYVE, Lens, Streamr Network, The Graph, Block-Explorer verschiedener Protokolle usw.
Node-as-a-Service und andere RPC/API-Dienste
Alchemy, All that Node, Infura, Pocket Network und Quicknode usw.
Orakel
API 3, Band Protocol, Chainlink, Nest Protocol, Pyth, Supra Oracles usw.
4.2.2 Lagerung
Im Vergleich zu Web2-Speicherlösungen bieten Web3-Speicherlösungen mehrere Vorteile wie Persistenz und Dezentralisierung. Sie haben jedoch auch einige Nachteile, wie hohe Kosten und Schwierigkeiten bei der Datenaktualisierung und -abfrage. Infolgedessen sind verschiedene Lösungen entstanden, um diese Mängel zu beheben und eine effiziente Verarbeitung strukturierter und dynamischer Daten auf Web3 zu ermöglichen – jede mit unterschiedlichen Merkmalen wie der Art der verarbeiteten Daten, ob sie strukturiert sind und ob sie über eine eingebettete Abfragefunktion verfügen und so weiter An.
Dezentrales Speichernetzwerk
Arweave, Filecoin, KYVE, Sia, Storj usw.
Dezentrale Datenbank
Arweave-basierte Datenbanken (Glacier, HollowDB, Kwil, WeaveDB), ComposeDB, OrbitDB, Polybase, Space and Time, Tableland usw.
* Jedes Protokoll verfügt über einen anderen permanenten Speichermechanismus. Beispielsweise ist Arweave ein Blockchain-basiertes Modell, ähnlich der Ethereum-Speicherung, das Daten dauerhaft in der Kette speichert, während Filecoin, Sia und Storj vertragsbasierte Modelle sind, die Daten außerhalb der Kette speichern.
4.2.3 Konvertierung
Im Kontext von Web3 ist die Übersetzungsschicht ebenso wichtig wie die Speicherschicht. Dies liegt daran, dass die Struktur der Blockchain grundsätzlich aus einer verteilten Ansammlung von Knoten besteht, was den Einsatz skalierbarer Backend-Logik erleichtert. In der KI-Branche erforschen Menschen aktiv die Nutzung dieser Vorteile für die Forschung im Bereich des föderierten Lernens, und es sind Protokolle für maschinelles Lernen und KI-Operationen entstanden.
Datentraining/Modellierung/Berechnung
Akash, Bacalhau, Bitensor, Gensyn, Golem, Together 等.
* Federated Learning ist eine Methode zum Trainieren von Modellen der künstlichen Intelligenz, indem das ursprüngliche Modell auf mehrere native Clients verteilt, gespeicherte Daten zum Trainieren verwendet und die gelernten Parameter dann auf einem zentralen Server gesammelt werden.
4.2.4 Analyse/Verwendung
Bei den unten aufgeführten Dashboard-Diensten sowie Endbenutzer-Einblicken und Analyselösungen handelt es sich um Plattformen, die es Benutzern ermöglichen, verschiedene Erkenntnisse aus bestimmten Protokollen zu beobachten und zu entdecken. Einige dieser Lösungen stellen auch API-Dienste für das Endprodukt bereit. Es ist jedoch wichtig zu beachten, dass die Daten in diesen Lösungen nicht immer korrekt sind, da sie zum Speichern und Verarbeiten der Daten meist separate Off-Chain-Tools verwenden. Es können auch Fehler zwischen Lösungen beobachtet werden.
Gleichzeitig gibt es eine Plattform namens „Web3 Functions“, die die Ausführung von Smart Contracts automatisch/auslösen kann, genau wie zentralisierte Plattformen wie Google Cloud bestimmte Geschäftslogiken auslösen/ausführen. Mit dieser Plattform können Benutzer Geschäftslogik auf Web3-native Weise implementieren, anstatt nur On-Chain-Daten zu verarbeiten, um Erkenntnisse zu gewinnen.
Dashboard-Dienste
Dune Analytics, Flipside Crypto, Footprint, Transpose usw.
Einblicke und Analysen für Endbenutzer
Chainalaysis, Glassnode, Messari, Nansen, The Tie, Token Terminal usw.
Web3-Funktionen
Chainlink-Funktionen, Gelato-Netzwerk usw.
Wie Kant sagte, können wir nur die Erscheinung der Dinge beobachten, nicht aber ihr Wesen. Dennoch verwenden wir Aufzeichnungen von Beobachtungen, die „Daten“ genannt werden, um Informationen und Wissen zu verarbeiten, und wir sehen, wie Innovationen in der Informationstechnologie die Entwicklung der Zivilisation vorantreiben. Daher kann der Aufbau einer Datenpipeline auf dem Web3-Marktplatz neben der Dezentralisierung eine Schlüsselrolle als Ausgangspunkt für die tatsächliche Nutzung dieser Chancen spielen. Ich möchte diesen Artikel mit ein paar Gedanken abschließen.
Die wichtigste Voraussetzung für eine Datenpipeline ist die Einrichtung einer Daten- und API-Governance. In einem immer vielfältigeren Ökosystem werden die von jedem Protokoll erstellten Spezifikationen weiterhin neu erstellt, und fragmentierte Transaktionsaufzeichnungen durch Multi-Chain-Ökosysteme werden es für Einzelpersonen schwieriger machen, umfassende Erkenntnisse zu gewinnen. Dann sind „Speicherlösungen“ Einheiten, die integrierte Daten in einem einheitlichen Format bereitstellen können, indem sie fragmentierte Informationen sammeln und die Spezifikationen jedes Protokolls aktualisieren. Wir beobachten, dass bestehende Marktspeicherlösungen wie Snowflake und Databricks schnell wachsen, einen großen Kundenstamm haben, vertikal integriert sind, indem sie auf verschiedenen Ebenen der Pipeline tätig sind, und branchenführend sind.
Erfolgreiche Anwendungsfälle entstanden, als Daten leichter zugänglich wurden und die Verarbeitung verbessert wurde. Dadurch entsteht ein positiver Kreislaufeffekt, bei dem Datenquellen und Erfassungstools explodieren – seit 2010 sind die Arten und Mengen der jedes Jahr erfassten digitalen Daten dank enormer Fortschritte in der Technologie zum Aufbau von Datenpipelines exponentiell gewachsen. Wenn man diesen Hintergrund auf den Web3-Markt anwendet, können in Zukunft viele Datenquellen rekursiv in der Kette generiert werden. Das bedeutet auch, dass Blockchain in verschiedene Geschäftsfelder expandieren wird. Zum jetzigen Zeitpunkt können wir damit rechnen, dass die Datenerfassung durch Datenmarktplätze wie Ocean Protocol oder DeWi-Lösungen (dezentrale drahtlose Lösungen) wie Helium und XNET sowie durch Speicherlösungen voranschreitet.
Das Wichtigste ist jedoch, sich immer wieder zu fragen, welche Daten aufbereitet werden sollten, um die Erkenntnisse zu gewinnen, die wirklich benötigt werden. Es gibt nichts Verschwenderischeres, als eine Datenpipeline aufzubauen, um eine Datenpipeline aufzubauen, ohne explizite Annahmen zur Validierung. Bestehende Märkte haben durch den Aufbau von Datenpipelines zahlreiche Innovationen erzielt, aber auch einen unzähligen Preis durch wiederholte sinnlose Misserfolge gezahlt. Es ist auch gut, konstruktive Diskussionen über die Entwicklung des Technologie-Stacks zu führen, aber die Branche braucht Zeit, um über grundlegendere Fragen nachzudenken und sie zu diskutieren, etwa welche Daten im Blockraum gespeichert werden sollen oder für welchen Zweck die Daten verwendet werden sollen . Das „Ziel“ sollte darin bestehen, den Wert von Web3 durch umsetzbare Informationen und Anwendungsfälle zu erkennen. In diesem Prozess sind die Entwicklung mehrerer Grundkomponenten und die Vervollständigung der Pipeline die „Mittel“, um dieses Ziel zu erreichen.