Всі Альткоїни Біткойн Блокчейн DeFi Ефіріум Метавсесвіт NFT Торгівля Підручник Ф'ючерси Торгові боти BRC-20 GameFi DAO Макротенденції Гаманці Inscription техніка Мем ШІ SocialFi DePin Стейблкоін Ліквідний стейкінг Фінанси RWA Модульні блокчейни Доказ із нульовим розголошенням Рестейкінг Інструменти для криптовалют Аірдроп Продукти Gate Безпека Аналіз проєктів CryptoPulse Дослідження Екосистема TON Рівень 2 Solana Платежі Майнінг Гарячі теми P2P Екосистема Sui Абстракція ланцюжка Опціон Швидкі огляди Відео Щоденний звіт Прогноз ринку Торгові боти Звіт про індустрію для VIP Токени з кредитним плечем

Дослідження

Мої обрані

Урок 3

Iceberg + Spark + Trino: сучасний стек даних з відкритим кодом для блокчейну

У цьому розділі ви дізнаєтесь про основні архітектурні оновлення Footprint, функції та ефективність збору та організації даних.

Завдання для сучасного стеку даних блокчейну

Існує кілька проблем, з якими може зіткнутися сучасний стартап з індексування блокчейну, зокрема:

Величезні обсяги даних. Зі збільшенням обсягу даних у блокчейні індекс даних потрібно буде збільшити, щоб впоратися зі збільшеним навантаженням і забезпечити ефективний доступ до даних. Отже, це призводить до вищих витрат на зберігання; повільний розрахунок метрик і збільшення навантаження на сервер бази даних.

Складний конвеєр обробки даних. Технологія блокчейн є складною, і для створення повного та надійного індексу даних потрібне глибоке розуміння базових структур даних і алгоритмів. Це успадковується різноманітністю реалізацій блокчейну. З огляду на конкретні приклади, NFT в Ethereum зазвичай створюються в смарт-контрактах, які відповідають формату ERC721 і ERC1155, тоді як реалізація контрактів на Polkadot, наприклад, зазвичай створюється безпосередньо в середовищі виконання блокчейну. Зрештою, їх слід вважати NFT і зберігати як такі.

Інтеграційні можливості. Щоб забезпечити максимальну цінність для користувачів, рішення для індексації блокчейну може потребувати інтеграції свого індексу даних з іншими системами, такими як аналітичні платформи або API. Це складно і вимагає значних зусиль для проектування архітектури.
Оскільки використання технології блокчейн стало більш поширеним, обсяг даних, що зберігаються в блокчейні, збільшився. Це тому, що більше людей використовують цю технологію, і кожна транзакція додає нові дані до блокчейну. Крім того, використання технології блокчейн еволюціонувало від простих додатків для переказу грошей, таких як ті, що включають використання біткойнів, до більш складних додатків, які включають реалізацію бізнес-логіки в смарт-контрактах. Ці смарт-контракти можуть генерувати великі обсяги даних, що сприяло збільшенню складності та розміру блокчейна. Згодом це призвело до більшого та складнішого блокчейну.

У цій статті ми розглядаємо еволюцію технологічної архітектури Footprint Analytics поетапно як тематичне дослідження, щоб дослідити, як стек технологій Iceberg-Trino вирішує проблеми з даними в мережі.

Footprint Analytics проіндексувала близько 22 загальнодоступних даних блокчейну, 17 ринків NFT, 1900 проектів GameFi та понад 100 000 колекцій NFT у семантичний рівень даних абстракції. Це найповніше рішення для сховищ даних блокчейн у світі.

Незалежно від даних блокчейну, які включають понад 20 мільярдів рядків записів фінансових транзакцій, які часто запитують аналітики даних. він відрізняється від журналів проникнення в традиційних сховищах даних.

За останні кілька місяців ми зазнали 3 основних оновлень, щоб відповідати зростаючим вимогам бізнесу:

Архітектура 1.0 Bigquery

На початку Footprint Analytics ми використовували Google BigQuery як механізм зберігання та запитів; Bigquery — чудовий продукт. Він неймовірно швидкий, простий у використанні, забезпечує динамічну арифметичну потужність і гнучкий синтаксис UDF, який допомагає нам швидко виконувати роботу.

Однак Bigquery також має низку проблем.

Дані не стискаються, що призводить до високих витрат на зберігання, особливо коли йдеться про зберігання необроблених даних понад 22 блокчейнів Footprint Analytics.

Недостатній паралелізм: Bigquery підтримує лише 100 одночасних запитів, що не підходить для сценаріїв високого паралелізму для Footprint Analytics, коли обслуговується велика кількість аналітиків і користувачів.

Заблокуйте за допомогою Google Bigquery, який є продуктом із закритим кодом.
Тому ми вирішили вивчити інші альтернативні архітектури.

Архітектура 2.0 OLAP

Нас дуже зацікавили деякі продукти OLAP, які стали дуже популярними. Найбільш привабливою перевагою OLAP є його час відповіді на запити, який зазвичай займає кілька секунд, щоб повернути результати запиту для величезних обсягів даних, і він також може підтримувати тисячі одночасних запитів.

Ми вибрали одну з найкращих баз даних OLAP, Doris, щоб спробувати її. Цей двигун працює добре. Проте в якийсь момент ми незабаром зіткнулися з іншими проблемами:

Такі типи даних, як Array або JSON, ще не підтримуються (листопад 2022 р.). Масиви є поширеним типом даних у деяких блокчейнах. Наприклад, поле теми в журналах evm. Неможливість обчислення в масиві безпосередньо впливає на нашу здатність обчислювати багато бізнес-метрик.

Обмежена підтримка DBT і операторів злиття. Це загальні вимоги до інженерів даних для сценаріїв ETL/ELT, де нам потрібно оновити деякі щойно проіндексовані дані.
З огляду на це, ми не могли використовувати Doris для всього конвеєра даних у виробництві, тому ми спробували використати Doris як базу даних OLAP, щоб вирішити частину нашої проблеми в конвеєрі виробництва даних, діючи як механізм запитів і забезпечуючи швидке та високоякісне можливості одночасних запитів.

На жаль, ми не змогли замінити Bigquery на Doris, тому нам доводилося періодично синхронізувати дані з Bigquery на Doris, використовуючи його лише як систему запитів. Цей процес синхронізації мав низку проблем, одна з яких полягала в тому, що записи оновлень швидко накопичувалися, коли механізм OLAP був зайнятий обслуговуванням запитів до зовнішніх клієнтів. Згодом це вплинуло на швидкість процесу запису, а синхронізація тривала набагато довше, а іноді її навіть було неможливо завершити.

Ми зрозуміли, що OLAP може вирішити кілька проблем, з якими ми стикаємося, і не може стати готовим рішенням Footprint Analytics, особливо для конвеєра обробки даних. Наша проблема більша і складніша, і ми можемо сказати, що OLAP як механізм запитів був недостатній для нас.

Архітектура 3.0 Iceberg + Trino

Ласкаво просимо до архітектури Footprint Analytics 3.0, повної переробки основної архітектури. Ми переробили всю архітектуру з нуля, щоб розділити зберігання, обчислення та запит даних на три різні частини. Беручи уроки з двох попередніх архітектур Footprint Analytics і вивчаючи досвід інших успішних проектів великих даних, таких як Uber, Netflix і Databricks.

Введення озера даних

Спочатку ми звернули увагу на озеро даних, новий тип зберігання як структурованих, так і неструктурованих даних. Озеро даних ідеально підходить для зберігання даних у ланцюжку, оскільки формати даних у ланцюзі варіюються від неструктурованих вихідних даних до структурованих абстракційних даних, якими добре відома Footprint Analytics. Ми сподівалися використовувати озеро даних для вирішення проблеми зберігання даних, і в ідеалі воно також підтримувало б основні обчислювальні механізми, такі як Spark і Flink, щоб не було проблем з інтеграцією з різними типами механізмів обробки в міру розвитку Footprint Analytics. .

Iceberg дуже добре інтегрується з Spark, Flink, Trino та іншими обчислювальними механізмами, і ми можемо вибрати найбільш підходящий обчислення для кожного з наших показників. Наприклад:

Для тих, кому потрібна складна обчислювальна логіка, вибором буде Spark.

Flink для обчислень у реальному часі.

Для простих завдань ETL, які можна виконати за допомогою SQL, ми використовуємо Trino.
Система запитів

Оскільки Iceberg вирішував проблеми зберігання та обчислень, нам довелося подумати, як вибрати механізм запитів. Доступних варіантів небагато, альтернативи, які ми розглядали, були

Trino: механізм запитів SQL

Presto: Механізм запитів SQL

Kyuubi: безсерверний Spark SQL
Найважливіша річ, яку ми врахували перед тим, як заглиблюватися глибше, полягала в тому, що майбутня система запитів повинна бути сумісною з нашою поточною архітектурою.

Для підтримки Bigquery як джерела даних

Для підтримки DBT, на який ми покладаємося для створення багатьох показників

Для підтримки метабази інструментів BI
Виходячи з вищесказаного, ми обрали Trino, який має дуже хорошу підтримку для Iceberg, і команда була настільки чуйною, що ми виявили помилку, яку було виправлено наступного дня та випущено до останньої версії наступного тижня. Це, безперечно, був найкращий вибір для команди Footprint, яка також потребує високої швидкості впровадження.

Тестування продуктивності

Коли ми визначилися з нашим напрямком, ми провели тест продуктивності комбінації Trino + Iceberg, щоб перевірити, чи відповідає вона нашим потребам, і, на наш подив, запити надходили неймовірно швидко.

Знаючи, що Presto + Hive протягом багатьох років був найгіршим компаратором у всьому ажіотажі OLAP, комбінація Trino + Iceberg повністю вразила нас.

Ось результати наших тестів.

випадок 1: приєднатися до великого набору даних

Таблиця1 на 800 ГБ приєднується до іншої таблиці2 на 50 ГБ і виконує складні бізнес-розрахунки

case2: використовуйте велику єдину таблицю для виконання окремого запиту

Перевірте sql: виберіть distinct(address) із групи таблиць за днями

Комбінація Trino+Iceberg приблизно в 3 рази швидша, ніж Doris у тій же конфігурації.

На додаток до цього є ще один сюрприз, оскільки Iceberg може використовувати такі формати даних, як Parquet, ORC тощо, які стискатимуть дані та зберігатимуть їх. Зберігання таблиць Iceberg займає лише близько 1/5 місця інших сховищ даних. Розмір зберігання тієї самої таблиці в трьох базах даних такий:

Примітка. Наведені вище тести є окремими прикладами, з якими ми стикалися в реальному виробництві, і наведені лише для довідки.

・Ефект оновлення

Звіти про тестування продуктивності дали нам достатню продуктивність, тому нашій команді знадобилося близько 2 місяців, щоб завершити міграцію, і це діаграма нашої архітектури після оновлення.

Численні комп’ютерні механізми відповідають нашим різноманітним потребам.

Trino підтримує DBT, може напряму запитувати Iceberg, тому нам більше не потрібно мати справу з синхронізацією даних.

Чудова продуктивність Trino + Iceberg дозволяє нам відкривати всі дані Bronze (необроблені дані) для наших користувачів.
Зведення

З моменту запуску в серпні 2021 року команда Footprint Analytics виконала три модернізації архітектури менш ніж за півтора року завдяки своєму великому бажанню та рішучості надати переваги найкращої технології баз даних своїм криптографічним користувачам, а також надійному виконанню впровадження і модернізація базової інфраструктури та архітектури.

Оновлення архітектури Footprint Analytics 3.0 надає користувачам новий досвід, дозволяючи користувачам із різним професійним становищем отримувати статистичні дані щодо більш різноманітного використання та програм:

Створений за допомогою інструменту Metabase BI, Footprint допомагає аналітикам отримати доступ до декодованих даних у ланцюжку, досліджувати з повною свободою вибору інструментів (без коду чи жорсткого зв’язку), запитувати всю історію, перехресно перевіряти набори даних, щоб отримати розуміння в жодному разі. час.

Інтегруйте дані як у мережі, так і поза мережею для аналізу через web2 + web3;

Створюючи метрики/запити на основі бізнес-абстракції Footprint, аналітики та розробники заощаджують час на 80% повторюваної роботи з обробки даних і зосереджуються на значущих показниках, дослідженнях і рішеннях для продуктів, що базуються на їх бізнесі.