Реставрація українських Веб-архівів
Вже тривалий час спостерігаю картину природного занепаду Web, який поступово витісняють мобільні платформи, а тепер ще й штучний інтелект. Це можна було б сприймати за норму, адже є такі ресурси як Web-archive, звідки "завжди" можна підняти архівну копію. Але такі копії там хаотично формуються кравлером, тому деякий контент пропускається а деякий - з невідомих мені причин стає не доступним.
Таким чином, з пошукової видачі поступово зникає україномовний контент, за ним зникає читач, а потім й сама культура, зокрема - наукові роботи, статті, мануали, книги, тощо...
Думки наступні:
1. зробити локальні "сирі" копії активних сайтів щонайменше засобами `wget`
1.1. тут можна підняти віртуальні Веб-хости Yggdrasil для локального читання у браузері
1.2. створити для таких дампів роздачу BitTorrent або просто підписати хешем SHA/MD
1.3. надати до статичних дампів доступи по FTP (в анонімному режимі read-only для копіювання)
2. підняти останні архіви вже не доступних сайтів та вручну оформити їх в репозиторій у форматі Markdown, який потім можна згенерувати в актуальний формат, зокрема засобами mdBook або актуальним на той момент П/З.
Стосовно останнього пункту, тут є "невеличка" проблема з авторськими правами, бо колись було модно ліпити лейбл "усі права захищено" тут здається термін переходу інформації в суспільне надбання складає близько 60 років, можливо я помиляюсь. За цей час інформація може зникнути, або частково втратитись, тому на допомогу може прийти стара добра модель андеграунду з його неформальними правилами "забити болт" на копіразм але при цьому з повагою ставитися до подібних скарг, таким чином що якщо автор з'явиться / оживе, можна було зняти з публікації ресурс за його скаргою.
Утім, такий ресурс вже може стати частиною певної енциклопедії або вікі, я цей процес погано уявляю, але більше уявляю той факт, що більшість з авторів все ж таки на зв'язок не вийдуть ніколи - через втрату інтересу або через військові дії.
Іншою проблемою збереження готових збірок (для того ж пункту #2) є медіа-файли. Якщо це буде Git-хостинг, то медіа-файли там не вітаються і рано чи пізно спричинять зайві питання від провайдера. Тому ймовірно, тут доведеться заморочитись з Gitea, чи що там сьогодні модно. Але такий формат зробить сховище менш популярним, а значить - менш стійким до потенційного занепаду. Можливо є сенс обговорювати з адміністрацією хостинга, на що повертаємось до питання копірайту.
Далі буде.