Примечание редакции Mobile-review.com. Мы подбираем материалы в раздел «Мнение», чтобы показать то, как воспринимают рынок компании в других странах. Мнения в таких материалах зачастую не совпадают со взглядами нашей редакции, но дают понимание рынка, его медийной составляющей.
По материалам Pew Research Center
Интернет — это невообразимо большое хранилище современной жизни с сотнями миллиардов проиндексированных веб-страниц. Но даже несмотря на то, что пользователи по всему миру пользуются Интернетом для доступа к книгам, изображениям, новостным статьям и другим ресурсам, этот контент иногда становится невидимым.
Недавняя работа Исследовательского центра Пью показывает, насколько на самом деле эфемерен контент в сети.
По состоянию на октябрь 2023 года четверть всех веб-страниц, существовавших когда-либо в период с 2013 по 2023 год, более не доступны. В большинстве случаев это произошло потому, что отдельная страница была перенесена или удалена на веб-сайте, который в остальном продолжает работать.
Для более старого контента эта тенденция еще заметнее. Около 38% веб-страниц, существовавших в 2013 году, сегодня недоступны. Для сравнения, для страниц, существовавших в 2023 году, этот показатель составляет 8%.
Этот «цифровой распад» происходит во многих различных онлайн-пространствах. Специалисты изучили ссылки, которые появляются на правительственных и новостных веб-сайтах, а также в разделе «Ссылки» на страницах «Википедии» по состоянию на весну 2023 года. Анализ показал, что:
23% новостных веб-страниц содержат хотя бы одну неработающую ссылку, то же самое с 21% веб-страниц правительственных сайтов. Новостные сайты с высоким уровнем посещаемости и сайты с меньшим уровнем трафика примерно с одинаковой вероятностью содержат неработающие ссылки. Веб-страницы местных правительственных органов (принадлежащие городским властям) особенно часто содержат неработающие ссылки.
54% страниц «Википедии» содержат хотя бы одну ссылку в разделе «Ссылки», ведущую на страницу, которая более не существует.
Чтобы увидеть, как «цифровой распад» проявляется в социальных сетях, была также сделана выборка твитов в реальном времени весной 2023 года на платформе X* (тогда известной как Twitter*). За ними следили в течение трех месяцев и обнаружили, что:
Почти каждый пятый твит перестает быть виден на сайте всего через несколько месяцев после публикации. В 60% этих случаев аккаунт, первоначально разместивший твит, был закрыт, заблокирован или полностью удален. В остальных 40% владелец аккаунта удалил отдельный твит, но сам аккаунт все еще существовал.
Некоторые типы твитов имеют тенденцию исчезать чаще, чем другие. Более 40% твитов, написанных на турецком или арабском языке, перестают быть видны на сайте в течение трех месяцев после публикации. А твиты из аккаунтов с настройками профиля по умолчанию с наибольшей вероятностью перестанут быть доступны для всеобщего просмотра.
Как в этом исследовании определяются недоступные ссылки и веб-страницы
Существует много способов определить, является ли что-то, существовавшее ранее в Интернете, более недоступным для тех, кто пытается получить к нему доступ сегодня. Например, «недоступный» может означать, что:
Страница больше не существует на своем хост-сервере, или сам хост-сервер больше не существует. Тот, кто открывает страницу этого типа, обычно получает вариант ошибки сервера «404 Not Found» вместо искомого контента.
Адрес страницы существует, но ее содержание было изменено (иногда радикально) по сравнению с тем, что было изначально.
Страница существует, но некоторым пользователям (например, людям, страдающим слепотой или другими нарушениями зрения) может быть трудно или невозможно ее прочитать.
В этом исследовании авторы сосредоточились на первом варианте: это страницы, которых больше не существует. Другие определения доступности выходят за рамки исследования.
Подход авторов предполагает простой способ определить, доступно что-то в Интернете или нет. Но даже в этом случае имеется некоторая неясность.
Во-первых, существуют десятки статус-кодов, указывающих на проблему, с которой пользователь может столкнуться при попытке получить доступ к странице. Не все из них однозначно указывают на то, является ли страница окончательно неработающей или просто временно недоступной. Во-вторых, по соображениям безопасности многие сайты активно пытаются предотвратить автоматический сбор данных, который авторы использовали для проверки своего полного списка ссылок.
По этим причинам была применена наиболее консервативная оценка, позволяющая решить, действительно ли сайт доступен или нет. Страницы считались недоступными только в том случае, если они выдавали один из девяти кодов ошибок, которые однозначно указывают на то, что страница и/или ее хост-сервер больше не существуют или стали неработающими – независимо от того, как и кем осуществляется доступ к ним. Полный список кодов ошибок, которые были включены в определение, можно посмотреть в разделе о методологии исследования. Можете полюбопытствовать, если читаете на английском.
Вот некоторые результаты анализа «цифрового распада» в различных онлайн-пространствах.
Веб-страницы в последнее десятилетие
Для проведения этой части анализа была собрана случайная выборка из чуть менее миллиона веб-страниц из архивов Common Crawl, архивного интернет-сервиса, который периодически делает снапшоты Интернета в том виде, в котором он существует в разные моменты времени. Авторы отбирали страницы, собираемые Common Crawl каждый год с 2013 по 2023 (приблизительно 90 000 страниц в год), и проверяли, существуют ли эти страницы сегодня.
Было обнаружено, что 25% всех выбранных страниц, существовавших с 2013 по 2023 год, были недоступны по состоянию на октябрь 2023 года. Эта цифра представляет собой сумму двух разных типов неработающих страниц: 16% страниц недоступны сами по себе, но принадлежат работающему корневому домену; остальные 9% недоступны, поскольку весь их корневой домен больше не функционирует.
Неудивительно, что более ранние снапшоты в выборке содержат наибольшую долю недоступных ссылок. Из страниц, взятых со снапшота 2013 года, 38% больше не доступны в 2023 году. Но даже среди страниц, взятых со снапшота 2021 года, примерно каждая пятая стала недоступна всего за два года.
Ссылки на правительственных сайтах
Авторы исследования выбрали около 500 000 страниц правительственных веб-сайтов, используя снапшот Интернета от Common Crawl за март/апрель 2023 года, причем различных уровней правительства (федерального, регионального, местного и других). Они нашли каждую ссылку на каждой странице и отследили случайно выбранные ссылки, чтобы проверить, существуют ли еще страницы, на которые они ведут.
На правительственных веб-сайтах, которые были выбраны, имелось 42 миллиона ссылок. Подавляющее большинство этих ссылок (86%) были внутренними, то есть вели на другую страницу того же сайта. Разъясняющий ресурс на веб-сайте Налогового управления США, который ссылается на другие документы или формы на сайте этой организации, может служить примером внутренней ссылки.
Около трех четвертей правительственных веб-страниц, которые были выбраны, содержали хотя бы одну ссылку на странице. Типичная (медианная) страница содержит 50 ссылок, но на многих страницах ссылок гораздо больше. Страница в 90-м процентиле содержит 190 ссылок, а страница в 99-м процентиле (то есть 1% верхних страниц по количеству ссылок) содержит 740 ссылок.
Другие факты о ссылках на правительственных страницах:
- Подавляющее большинство ведут на защищенные HTTP-страницы (их URL-адрес начинается с «https://»).
- 6% ведут на статичный файл, например, PDF-документ.
- 16% перенаправляют на URL-адрес, отличный от того, на который вели изначально.
Когда авторы перешли по этим ссылкам, они обнаружили, что 6% ведут на страницы, которые более не доступны. Примерно равные доли внутренних и внешних ссылок больше не работают.
В целом, 21% всех исследованных правительственных веб-страниц содержали хотя бы одну неработающую ссылку. На каждом уровне правительства, который был рассмотрен, по меньшей мере 14% страниц содержали неработающие ссылки. На страницах городских властей наблюдался самый высокий процент неработающих ссылок.
Ссылки на новостных веб-сайтах
Для этого исследования было выбрано 500 000 страниц с 2063 веб-сайтов, отнесенных американской аналитической компанией comScore к категории «Новости/информация». Страницы были взяты со снапшота Интернета Common Crawl за март/апрель 2023 года.
На всех отобранных новостных сайтах выборка содержала более 14 миллионов ссылок, ведущих на внешний веб-сайт. Около 94% этих страниц содержат по крайней мере одну внешнюю ссылку. Средняя страница содержит 20 ссылок, а страницы, входящие в топ-10% по количеству ссылок, содержат 56 ссылок.
Как и на правительственных веб-сайтах, подавляющее большинство этих ссылок ведут на защищенные HTTP-страницы (те, URL-адрес которых начинается с «https://»). Около 12% ссылок на этих новостных сайтах ведут на статический файл, например PDF-документ. И 32% ссылок на новостных сайтах перенаправляют на URL-адрес, отличный от того, на который они изначально вели, – немного меньше, чем 39% внешних перенаправляющих ссылок на правительственных сайтах.
Авторы прошли по этим ссылкам и обнаружили, что 5% всех ссылок на страницах новостных сайтов больше не доступны. И 23% всех страниц, которые были выбраны, содержали хотя бы одну неработающую ссылку.
Неработающие ссылки примерно равно распространены на новостных сайтах с наибольшей и с меньшей посещаемостью. Около 25% страниц новостных сайтов, входящих в топ-20% по посещаемости, имеют хотя бы одну неработающую ссылку. В случае с сайтами, входящими в 20% сайтов с наименьшей посещаемостью, показатель почти равен — 26%.
Справочные ссылки в «Википедии»
Для исследования была сделана случайная выборка из 50 000 англоязычных страниц «Википедии» и изучены ссылки в разделе «Ссылки». Подавляющее большинство этих страниц (82%) содержат по крайней мере одну ссылку, которая направляет читателя на другую веб-страницу, а не на саму «Википедию».
В общей сложности на всех выбранных страницах имеется чуть более миллиона таких ссылок. Типичная страница содержит четыре такие ссылки.
Анализ показывает, что 11% всех ссылок в «Википедии» больше не доступны. Примерно на 2% исходных страниц, содержащих ссылки, каждая ссылка на странице была неработающей или недоступной по иным причинам, а еще 53% страниц содержали хотя бы одну неработающую ссылку.
Посты в Twitter*
Для исследования было выбрано около 5 миллионов твитов, опубликованных с 8 марта по 27 апреля 2023 года в социальной сети X*, которая в то время называлась Twitter*. Это сделали с помощью стримингового API Twitter, выбирая 3000 общедоступных твитов каждые 30 минут в режиме реального времени. Это позволило получить репрезентативную выборку твитов, опубликованных на платформе за этот период. Авторы отслеживали эти твиты до 15 июня 2023 года и каждый день проверяли, доступны ли они на сайте или нет.
В конце периода наблюдения они обнаружили, что 18% твитов из первоначальной выборки больше не были видны на сайте всем. В большинстве случаев это произошло потому, что аккаунт, первоначально разместивший твит, был закрыт, заблокирован или полностью удален. Что касается остальных твитов, аккаунт, с которого был опубликован твит, все еще был виден на сайте, но отдельный твит был удален.
Какие твиты имеют тенденцию исчезать?
Твиты с наибольшей вероятностью убирались из доступа или удалялись в течение периода сбора данных, если они:
Написаны на определенных языках. Почти половина всех твитов на турецком языке, которые были выбраны, и несколько меньше твитов, написанных на арабском языке, к концу периода отслеживания стали недоступны.
Размещены с аккаунтов с настройками профиля по умолчанию. Более половины твитов от аккаунтов, имеющих дефолтную картинку профиля, больше не были доступны в конце периода отслеживания, как и более трети от аккаунтов с дефолтным полем биографии. Твиты от этих аккаунтов, как правило, исчезают, потому что весь аккаунт был удален или стал приватным, а не потому, что удалили конкретный твит.
Размещались с неподтвержденных аккаунтов.
Также было обнаружено, что перенесенные или удаленные твиты, как правило, размещались с аккаунтов с относительно небольшим количеством подписчиков и умеренной активностью на сайте. В среднем твиты, которые больше не были видны на сайте, были опубликованы аккаунтами примерно на восемь месяцев моложе тех, чьи твиты остались на сайте.
А когда авторы проанализировали типы твитов, которые больше не были доступны, они обнаружили, что ретвиты, твиты с цитатами и оригинальные твиты не сильно расходятся с общим средним показателем. В свою очередь, вероятность удаления ответов была сравнительно низкой: к концу периода наблюдения только 12% ответов были недоступны.
Большинство твитов, удаленных с сайта, обычно исчезают вскоре после публикации. Помимо проверки того, сколько твитов из выборки все еще было доступно в конце периода отслеживания, авторы провели анализ выживаемости, чтобы посмотреть, как долго эти твиты остаются доступными. Они обнаружили, что:
- 1% твитов удаляются в течение часа
- 3% — в течение дня
- 10% — в течение недели
- 15% — в течение месяца
Другими словами: половина твитов, которые в конечном итоге удаляются с платформы, становятся недоступными в течение первых шести дней после публикации. И 90% этих твитов становятся недоступны в течение 46 дней.
Однако твиты не всегда исчезают окончательно. Около 6% выбранных твитов исчезли, а затем снова стали доступны. Это может происходить из-за того, что аккаунт стал приватным, а затем вернулся в общедоступный статус, или из-за того, что аккаунт был приостановлен, а затем восстановлен. Из этих «вновь появившихся» твитов подавляющее большинство (90%) все еще были доступны в конце периода наблюдения.
А сверху еще мессенджеры, типа Телеги. Если раньше что-то пропадало, что-то появлялось, то сейчас новое появляется на неиндексируемых ресурсах. То есть можно считать, что в общем доступе его нет.
Ну и что? Интернет — это просто цифровой мир. Тут всё, как в настоящем. Люди уходят из мира. О каких-то людях есть записи, о каких-то нет. Так и в сети. Мусор из Твиттера исчезает и хорошо. Что-то остаётся. Надеюсь, что то, что остается принесёт пользу будущим поколениям.
"аккаунт, первоначально разместивший твит, была закрыт" Был закрыт…
Тут из реального мира внезапно исчезнуть можно… Что уж там про контент переживать…
"… и принцесса от злости повесилась на собственной косе. Потому что он совершенно точно сосчитал, сколько зерен в мешке, сколько капель в море и сколько звезд на небе. Так выпьем же за кибернетиков! "
Так ли пропавший скам был фундаментален для человечества?
====Интернет — это невообразимо большое хранилище современной жизниПоходу, хипстеры не очень понимают суть интернета. Интернет — это сеть передачи данных, хипстеры оплачивают услугу передачи данных, то есть бреда сивой кобылы (зачеркнуто) контента от одного до другого хипстера. И эту услугу они более-менее получают. С чего хипстеры взяли, что их бред сивой кобылы (зачеркнуто) контент кто-то обязан хранить вечно — совершенно непонятно. Если какой-то контент очень важен для хипстера — он всегда может записать этот контент на диск и прибить этот диск к стене, а лучше пойти в типографию и заказать свою переписку в виде многотомного издания в золотом переплете.
GrishaTav_SE, Ну так на то они и хипстеры, чтобы мыслить уровнем «откуда деньги – из тумбочки». Злой Мистер Интернет не хранит их великие твиты… плак-плак. Вы верно заметили, что сеть свою функцию выполняет (более того, сеть, которую изначально проектировали как узкоспециализированную – пример тому количество IP адресов v4). А вот хранение… Ну такое тоже существует архив.орг, например. Но твитты феминисток там почему-то не найти 🙂
Прикольно, взяли, удалили мой солидарный ответ. Без единого матерного слова. Единственное, что могу там вспомнить – иронию про твиты феминисток. Тоже повесточку отрабатываете?
Frederick_I, Так ли пропавший ответ был фундаментален для человечества?
GrishaTav_SE, Челик, хипстеры это субкультура США 50х годов. Чем они тебя обидели?
Поручикъ Ржевскій, пропажа одного человека, как бы цинично это ни звучало — небольшая потеря. Контент же — это не только тот, что в тик-ток. Сегодня он часто эквивалентен знаниям и его пропажа часто будет аналогична их утрате. К сожалею (или к счастью), контент редко дублируют на бумаге. Так что проблема отнюдь не ерундовая.
Сергей Арочкин, Сохранять собирались, ироничный вы мой? Я там написал, что есть такая штука как Архив Орг для тех кому надо. Но полотен гендер/политосрачей там почему-то нет. И что да, изначально Интернет вообще не рассчитан был на обывателя о чём свидетельствует тот же IPv4
Дима Noname, Ничем. Просто за хипстеров здесь не банят.
Mikhail Volkov, Да, только если этот человек не ты сам 😉
Хeрня.Только Флибусту жалко.
Mikhail Volkov, Если смотреть в гигабайтах, то 90% контента никакой ценности не представляет даже в моменте, а уж в рамках истории тем более.
Константин, сравнение ценностей — это тонкое дело. Сегодня нам это кажется ерундой, а завтра — это окажется тем кирпичиком, на котором выстроится НОВАЯ система ценностей. Про хомяка в «Бирюльках» сегодня же уже спорили)
Mikhail Volkov, конечно, миллионы терабайт проно, овно блогеров и тык-тыкеров несомненно имеют свою художественную ценность, но очень надеюсь, что человечество не будет на основе этого создавать новую систему ценностей)))
GrishaTav_SE, надежнее места, чем тату на своей попе не сыскать)
romanlt, >>Только Флибусту жалко.Это да. Прям уходит эпоха
GrishaTav_SE, С большой натяжкой. Компьютерная сеть, хоть интер-, хоть интра-, это ожидание что компьютер/ресурс Х будет доступен, так и что компьютер/ресурс Х это собственно Х. Если ты стучишься в файловое хранилище, а тебе отвечает почтовый сервер, не большая неожиданность, чем если стучишься к статье Х, а тебе отвечают картинкой Y.Я не говорю, что все должно хранится неизменно, но и сводить лишь к передаче, весьма странно.
Константин, у нас, скорее всего, не будет. А Запад давно это все утвердил. Девиации на базе всех этих многобуквенных аббревиатур, сложные, абстрактные финансовые инструменты, которым хомяк по эфемерности в подмётки не годится, индульгенция на употребление веществ расширяющих сознание и т.п. Все тренды современного Интернета развитый мир продвигает как права и свободы. Чем не новые ценности?
Mikhail Volkov, Из современных трендов самый лучший это роудоггинг — вот его я очень одобряю (хоть сам и не пользуюсь). Очень хотелось бы его массового продвижения)))
Lecron, Интернет обеспечивает вам только доступ до ресурса Х, а у этого ресурса есть свой владелец. И только этот владелец может решить, что будет на этом ресурсе завтра — наша переписка или картинка с голой ж. Если хотите определенности — заключите с владельцем договор с помесячной оплатой, тогда с него сможете что-то требовать. В суде его юрисдикции, разумеется. Как-то так.
GrishaTav_SE, Вы не обратили внимания на второй основной тезис моего поста. Требовать — нельзя. Ожидать — можно, и нужно. В таком ожидании нет ничего плохого, хипстерского.
Lecron, Почему можно ожидать? Потому что какие-то компании, с какими-то своими целями, типа раскрутки, сбора данных лохов и роста цены акций делали аттракционы невиданной щедрости и кому-то там что-то бесплатно хранили? Ну да, сегодня хранили, а завтра пришел еще более эффективный манагер, подсчитал бабки, прослезился и порезал половину ценнейшего, уникального контента. Его сервак — его правила :)))Для ценителей контента предлагаю бизнес-план. Натапать денег на хомяке, поднять свой дата-центр и там хранить что угодно и сколько угодно. Вероятность примерно одинаковая, что с хомяком, что ждать милостей от чужого дяди :))
Mikhail Volkov, Да запад пусть делает все что угодно, это их проблема, главное самим не поддаваться. А ценность информации у каждого своя. Если какая то информация очень важна, то я храню ее у себя локально.