Реставрація українських Веб-архівів

Вже тривалий час спостерігаю картину природного занепаду Web, який поступово витісняють мобільні платформи, а тепер ще й штучний інтелект. Це можна було б сприймати за норму, адже є такі ресурси як Web-archive, звідки "завжди" можна підняти архівну копію. Але такі копії там хаотично формуються кравлером, тому деякий контент пропускається а деякий - з невідомих мені причин стає не доступним.

Таким чином, з пошукової видачі поступово зникає україномовний контент, за ним зникає читач, а потім й сама культура, зокрема - наукові роботи, статті, мануали, книги, тощо...

Думки наступні:

1. зробити локальні "сирі" копії активних сайтів щонайменше засобами `wget`

1.1. тут можна підняти віртуальні Веб-хости Yggdrasil для локального читання у браузері

1.2. створити для таких дампів роздачу BitTorrent або просто підписати хешем SHA/MD

1.3. надати до статичних дампів доступи по FTP (в анонімному режимі read-only для копіювання)

2. підняти останні архіви вже не доступних сайтів та вручну оформити їх в репозиторій у форматі Markdown, який потім можна згенерувати в актуальний формат, зокрема засобами mdBook або актуальним на той момент П/З.

Стосовно останнього пункту, тут є "невеличка" проблема з авторськими правами, бо колись було модно ліпити лейбл "усі права захищено" тут здається термін переходу інформації в суспільне надбання складає близько 60 років, можливо я помиляюсь. За цей час інформація може зникнути, або частково втратитись, тому на допомогу може прийти стара добра модель андеграунду з його неформальними правилами "забити болт" на копіразм але при цьому з повагою ставитися до подібних скарг, таким чином що якщо автор з'явиться / оживе, можна було зняти з публікації ресурс за його скаргою.

Утім, такий ресурс вже може стати частиною певної енциклопедії або вікі, я цей процес погано уявляю, але більше уявляю той факт, що більшість з авторів все ж таки на зв'язок не вийдуть ніколи - через втрату інтересу або через військові дії.

Іншою проблемою збереження готових збірок (для того ж пункту #2) є медіа-файли. Якщо це буде Git-хостинг, то медіа-файли там не вітаються і рано чи пізно спричинять зайві питання від провайдера. Тому ймовірно, тут доведеться заморочитись з Gitea, чи що там сьогодні модно. Але такий формат зробить сховище менш популярним, а значить - менш стійким до потенційного занепаду. Можливо є сенс обговорювати з адміністрацією хостинга, на що повертаємось до питання копірайту.

Далі буде.

Посилання

Копія цієї теми на DevZone
Ініціатива на Linux Mint Україна
Експериментальний проєкт спільноти на Codeberg