Когда исчезает контент в сети

Примечание редакции Mobile-review.com. Мы подбираем материалы в раздел «Мнение», чтобы показать то, как воспринимают рынок компании в других странах. Мнения в таких материалах зачастую не совпадают со взглядами нашей редакции, но дают понимание рынка, его медийной составляющей.

По материалам Pew Research Center

Интернет — это невообразимо большое хранилище современной жизни с сотнями миллиардов проиндексированных веб-страниц. Но даже несмотря на то, что пользователи по всему миру пользуются Интернетом для доступа к книгам, изображениям, новостным статьям и другим ресурсам, этот контент иногда становится невидимым.

Недавняя работа Исследовательского центра Пью показывает, насколько на самом деле эфемерен контент в сети.

По состоянию на октябрь 2023 года четверть всех веб-страниц, существовавших когда-либо в период с 2013 по 2023 год, более не доступны. В большинстве случаев это произошло потому, что отдельная страница была перенесена или удалена на веб-сайте, который в остальном продолжает работать.

Для более старого контента эта тенденция еще заметнее. Около 38% веб-страниц, существовавших в 2013 году, сегодня недоступны. Для сравнения, для страниц, существовавших в 2023 году, этот показатель составляет 8%.

Этот «цифровой распад» происходит во многих различных онлайн-пространствах. Специалисты изучили ссылки, которые появляются на правительственных и новостных веб-сайтах, а также в разделе «Ссылки» на страницах «Википедии» по состоянию на весну 2023 года. Анализ показал, что:

23% новостных веб-страниц содержат хотя бы одну неработающую ссылку, то же самое с 21% веб-страниц правительственных сайтов. Новостные сайты с высоким уровнем посещаемости и сайты с меньшим уровнем трафика примерно с одинаковой вероятностью содержат неработающие ссылки. Веб-страницы местных правительственных органов (принадлежащие городским властям) особенно часто содержат неработающие ссылки.

54% страниц «Википедии» содержат хотя бы одну ссылку в разделе «Ссылки», ведущую на страницу, которая более не существует.

Чтобы увидеть, как «цифровой распад» проявляется в социальных сетях, была также сделана выборка твитов в реальном времени весной 2023 года на платформе X* (тогда известной как Twitter*). За ними следили в течение трех месяцев и обнаружили, что:

Почти каждый пятый твит перестает быть виден на сайте всего через несколько месяцев после публикации. В 60% этих случаев аккаунт, первоначально разместивший твит, был закрыт, заблокирован или полностью удален. В остальных 40% владелец аккаунта удалил отдельный твит, но сам аккаунт все еще существовал.

Некоторые типы твитов имеют тенденцию исчезать чаще, чем другие. Более 40% твитов, написанных на турецком или арабском языке, перестают быть видны на сайте в течение трех месяцев после публикации. А твиты из аккаунтов с настройками профиля по умолчанию с наибольшей вероятностью перестанут быть доступны для всеобщего просмотра.

Как в этом исследовании определяются недоступные ссылки и веб-страницы

Существует много способов определить, является ли что-то, существовавшее ранее в Интернете, более недоступным для тех, кто пытается получить к нему доступ сегодня. Например, «недоступный» может означать, что:

Страница больше не существует на своем хост-сервере, или сам хост-сервер больше не существует. Тот, кто открывает страницу этого типа, обычно получает вариант ошибки сервера «404 Not Found» вместо искомого контента.

Адрес страницы существует, но ее содержание было изменено (иногда радикально) по сравнению с тем, что было изначально.

Страница существует, но некоторым пользователям (например, людям, страдающим слепотой или другими нарушениями зрения) может быть трудно или невозможно ее прочитать.

В этом исследовании авторы сосредоточились на первом варианте: это страницы, которых больше не существует. Другие определения доступности выходят за рамки исследования.

Подход авторов предполагает простой способ определить, доступно что-то в Интернете или нет. Но даже в этом случае имеется некоторая неясность.

Во-первых, существуют десятки статус-кодов, указывающих на проблему, с которой пользователь может столкнуться при попытке получить доступ к странице. Не все из них однозначно указывают на то, является ли страница окончательно неработающей или просто временно недоступной. Во-вторых, по соображениям безопасности многие сайты активно пытаются предотвратить автоматический сбор данных, который авторы использовали для проверки своего полного списка ссылок.

По этим причинам была применена наиболее консервативная оценка, позволяющая решить, действительно ли сайт доступен или нет. Страницы считались недоступными только в том случае, если они выдавали один из девяти кодов ошибок, которые однозначно указывают на то, что страница и/или ее хост-сервер больше не существуют или стали неработающими – независимо от того, как и кем осуществляется доступ к ним. Полный список кодов ошибок, которые были включены в определение, можно посмотреть в разделе о методологии исследования. Можете полюбопытствовать, если читаете на английском.

Вот некоторые результаты анализа «цифрового распада» в различных онлайн-пространствах.

Веб-страницы в последнее десятилетие

Для проведения этой части анализа была собрана случайная выборка из чуть менее миллиона веб-страниц из архивов Common Crawl, архивного интернет-сервиса, который периодически делает снапшоты Интернета в том виде, в котором он существует в разные моменты времени. Авторы отбирали страницы, собираемые Common Crawl каждый год с 2013 по 2023 (приблизительно 90 000 страниц в год), и проверяли, существуют ли эти страницы сегодня.

Было обнаружено, что 25% всех выбранных страниц, существовавших с 2013 по 2023 год, были недоступны по состоянию на октябрь 2023 года. Эта цифра представляет собой сумму двух разных типов неработающих страниц: 16% страниц недоступны сами по себе, но принадлежат работающему корневому домену; остальные 9% недоступны, поскольку весь их корневой домен больше не функционирует.

Неудивительно, что более ранние снапшоты в выборке содержат наибольшую долю недоступных ссылок. Из страниц, взятых со снапшота 2013 года, 38% больше не доступны в 2023 году. Но даже среди страниц, взятых со снапшота 2021 года, примерно каждая пятая стала недоступна всего за два года.

Ссылки на правительственных сайтах

Авторы исследования выбрали около 500 000 страниц правительственных веб-сайтов, используя снапшот Интернета от Common Crawl за март/апрель 2023 года, причем различных уровней правительства (федерального, регионального, местного и других). Они нашли каждую ссылку на каждой странице и отследили случайно выбранные ссылки, чтобы проверить, существуют ли еще страницы, на которые они ведут.

На правительственных веб-сайтах, которые были выбраны, имелось 42 миллиона ссылок. Подавляющее большинство этих ссылок (86%) были внутренними, то есть вели на другую страницу того же сайта. Разъясняющий ресурс на веб-сайте Налогового управления США, который ссылается на другие документы или формы на сайте этой организации, может служить примером внутренней ссылки.

Около трех четвертей правительственных веб-страниц, которые были выбраны, содержали хотя бы одну ссылку на странице. Типичная (медианная) страница содержит 50 ссылок, но на многих страницах ссылок гораздо больше. Страница в 90-м процентиле содержит 190 ссылок, а страница в 99-м процентиле (то есть 1% верхних страниц по количеству ссылок) содержит 740 ссылок.

Другие факты о ссылках на правительственных страницах:

Когда авторы перешли по этим ссылкам, они обнаружили, что 6% ведут на страницы, которые более не доступны. Примерно равные доли внутренних и внешних ссылок больше не работают.

В целом, 21% всех исследованных правительственных веб-страниц содержали хотя бы одну неработающую ссылку. На каждом уровне правительства, который был рассмотрен, по меньшей мере 14% страниц содержали неработающие ссылки. На страницах городских властей наблюдался самый высокий процент неработающих ссылок.

Ссылки на новостных веб-сайтах

Для этого исследования было выбрано 500 000 страниц с 2063 веб-сайтов, отнесенных американской аналитической компанией comScore к категории «Новости/информация». Страницы были взяты со снапшота Интернета Common Crawl за март/апрель 2023 года.

На всех отобранных новостных сайтах выборка содержала более 14 миллионов ссылок, ведущих на внешний веб-сайт. Около 94% этих страниц содержат по крайней мере одну внешнюю ссылку. Средняя страница содержит 20 ссылок, а страницы, входящие в топ-10% по количеству ссылок, содержат 56 ссылок.

Как и на правительственных веб-сайтах, подавляющее большинство этих ссылок ведут на защищенные HTTP-страницы (те, URL-адрес которых начинается с «https://»). Около 12% ссылок на этих новостных сайтах ведут на статический файл, например PDF-документ. И 32% ссылок на новостных сайтах перенаправляют на URL-адрес, отличный от того, на который они изначально вели, – немного меньше, чем 39% внешних перенаправляющих ссылок на правительственных сайтах.

Авторы прошли по этим ссылкам и обнаружили, что 5% всех ссылок на страницах новостных сайтов больше не доступны. И 23% всех страниц, которые были выбраны, содержали хотя бы одну неработающую ссылку.

Неработающие ссылки примерно равно распространены на новостных сайтах с наибольшей и с меньшей посещаемостью. Около 25% страниц новостных сайтов, входящих в топ-20% по посещаемости, имеют хотя бы одну неработающую ссылку. В случае с сайтами, входящими в 20% сайтов с наименьшей посещаемостью, показатель почти равен — 26%.

Справочные ссылки в «Википедии»

Для исследования была сделана случайная выборка из 50 000 англоязычных страниц «Википедии» и изучены ссылки в разделе «Ссылки». Подавляющее большинство этих страниц (82%) содержат по крайней мере одну ссылку, которая направляет читателя на другую веб-страницу, а не на саму «Википедию».

В общей сложности на всех выбранных страницах имеется чуть более миллиона таких ссылок. Типичная страница содержит четыре такие ссылки.

Анализ показывает, что 11% всех ссылок в «Википедии» больше не доступны. Примерно на 2% исходных страниц, содержащих ссылки, каждая ссылка на странице была неработающей или недоступной по иным причинам, а еще 53% страниц содержали хотя бы одну неработающую ссылку.

Посты в Twitter*

Для исследования было выбрано около 5 миллионов твитов, опубликованных с 8 марта по 27 апреля 2023 года в социальной сети X*, которая в то время называлась Twitter*. Это сделали с помощью стримингового API Twitter, выбирая 3000 общедоступных твитов каждые 30 минут в режиме реального времени. Это позволило получить репрезентативную выборку твитов, опубликованных на платформе за этот период. Авторы отслеживали эти твиты до 15 июня 2023 года и каждый день проверяли, доступны ли они на сайте или нет.

В конце периода наблюдения они обнаружили, что 18% твитов из первоначальной выборки больше не были видны на сайте всем. В большинстве случаев это произошло потому, что аккаунт, первоначально разместивший твит, был закрыт, заблокирован или полностью удален. Что касается остальных твитов, аккаунт, с которого был опубликован твит, все еще был виден на сайте, но отдельный твит был удален.

Какие твиты имеют тенденцию исчезать?

Твиты с наибольшей вероятностью убирались из доступа или удалялись в течение периода сбора данных, если они:

Написаны на определенных языках. Почти половина всех твитов на турецком языке, которые были выбраны, и несколько меньше твитов, написанных на арабском языке, к концу периода отслеживания стали недоступны.

Размещены с аккаунтов с настройками профиля по умолчанию. Более половины твитов от аккаунтов, имеющих дефолтную картинку профиля, больше не были доступны в конце периода отслеживания, как и более трети от аккаунтов с дефолтным полем биографии. Твиты от этих аккаунтов, как правило, исчезают, потому что весь аккаунт был удален или стал приватным, а не потому, что удалили конкретный твит.

Размещались с неподтвержденных аккаунтов.

Также было обнаружено, что перенесенные или удаленные твиты, как правило, размещались с аккаунтов с относительно небольшим количеством подписчиков и умеренной активностью на сайте. В среднем твиты, которые больше не были видны на сайте, были опубликованы аккаунтами примерно на восемь месяцев моложе тех, чьи твиты остались на сайте.

А когда авторы проанализировали типы твитов, которые больше не были доступны, они обнаружили, что ретвиты, твиты с цитатами и оригинальные твиты не сильно расходятся с общим средним показателем. В свою очередь, вероятность удаления ответов была сравнительно низкой: к концу периода наблюдения только 12% ответов были недоступны.

Большинство твитов, удаленных с сайта, обычно исчезают вскоре после публикации. Помимо проверки того, сколько твитов из выборки все еще было доступно в конце периода отслеживания, авторы провели анализ выживаемости, чтобы посмотреть, как долго эти твиты остаются доступными. Они обнаружили, что:

Другими словами: половина твитов, которые в конечном итоге удаляются с платформы, становятся недоступными в течение первых шести дней после публикации. И 90% этих твитов становятся недоступны в течение 46 дней.

Однако твиты не всегда исчезают окончательно. Около 6% выбранных твитов исчезли, а затем снова стали доступны. Это может происходить из-за того, что аккаунт стал приватным, а затем вернулся в общедоступный статус, или из-за того, что аккаунт был приостановлен, а затем восстановлен. Из этих «вновь появившихся» твитов подавляющее большинство (90%) все еще были доступны в конце периода наблюдения.

[email protected]
наверх