Почему раньше голос в трубке звучал приятнее

Вы когда-нибудь ловили себя на мысли, что старые фильмы смотреть приятнее? Не по сюжету, а по ощущению. Там изображение зернистое, звук будто «из коробки», но в этом есть своя магия. Примерно то же самое произошло и с телефонными разговорами. Помните этот момент, когда поднимаешь трубку домашнего телефона, слышишь легкое шуршание, далекий фон и голос бабушки, хоть и с помехами, но такой… родной, что ли?

Буквально на днях у моего отца был день рождения, и я, как обычно, полез в мессенджер, чтобы его поздравить. Ну, вы знаете эту ситуацию: «Макс» — по сути, уже и не осталось других способов поговорить «по-нормальному», чтобы и видео, и голос. Я позвонил, мы поболтали, и только положив трубку, я поймал себя на странной мысли. Я слышал его слишком хорошо. И вроде бы это прогресс, это круто с точки зрения технологий — слышать родного человека так, будто он стоит рядом. Но как будто я испытал легкий дискомфорт. Интимно до мурашек, но… неуютно.

Довольно интересно заглянуть под капот технологий и понять, почему наше ухо воспринимает старую аналоговую связь как нечто теплое, а современную — как бритву.

Сегодня мы пройдемся по эволюции звука: от потрескиваний NMT до ультрасовременных кодеков 5G. Мне кажется, вы удивитесь, но мы кое-что потеряли в этой гонке за чистыми частотами.

Эпоха аналога: живое дыхание проводов

Давайте сразу договоримся: старая связь была ужасной с инженерной точки зрения. Но для уха — была сказкой. Чтобы понять, почему, вспомним физику. В аналоговых системах (первые сети вроде NMT-450 или AMPS) голос преобразовывался в непрерывный электрический сигнал и передавался по воздуху.

Что мы имели в сухом остатке? Во-первых, шум. Эти самые легкие потрескивания, шуршание эфира, далекие голоса других абонентов, которые иногда накладывались на разговор. С точки зрения инженера, это брак, помехи. Но с точки зрения психоакустики, это создавало эффект присутствия.

Mobira (Nokia) TMF-4SP — переносной мобильный телефон первого поколения (1G), работающий в аналоговом стандарте NMT-450

Я как-то общался со звукорежиссером старой школы. Он сказал гениальную фразу: 

«Тишина в эфире — это неестественно. Даже в студии мы всегда оставляем легкий шум ленты, чтобы слушатель не чувствовал себя в вакууме. Аналоговый шум — это «одеяло», в которое заворачивается голос».

И это правда. Аналоговая связь резала частоты, но делала это мягко. Диапазон частот был смехотворным — примерно 300–3400 Гц. Это так называемый «узкополосный» звук. Выше и ниже все обрезалось. Голос терял звонкость, но приобретал ту самую «телефонность» и плотность.

Цифровые 90-е и 00-е: GSM и великое сжатие

А потом пришли цифровые стандарты. GSM. И мир разделился на «до» и «после». Инженеры столкнулись с проблемой: эфир — ресурс дорогой. Чтобы запихнуть больше абонентов в эфир, голос нужно было жестко сжимать.

Вот тут и начинается математика. Твой голос режут на кусочки длиной 20 миллисекунд, оцифровывают, прогоняют через вокодер, отбрасывают все, что кажется «неважным», и передают по воздуху пакетами.

Какие были первые кодеки? В GSM использовали вокодеры с полной скоростью (FR — Full Rate), потом EFR (Enhanced Full Rate). Битрейт там был смешной — 13 кбит/с (для сравнения, музыку в MP3 слушают при 128 кбит/с, и то ругаются на качество). Позже появился AMR (Adaptive Multi-Rate), который мог подстраиваться под загруженность сети, падая с 12.2 кбит/с до 4.75 кбит/с в плохих условиях.

Что произошло со звуком?

  1. Пропала «воздушность». Шумы исчезли. Совсем. Алгоритмы шумоподавления безжалостно вырезали все, что не является речью. Разговор стал стерильным;
  2. Появились артефакты. Цифровые кодеки работают по принципу: «О, тут пауза — давай ее почти заткнем». Но делали они это топорно. Появился эффект «металлического» призвука, особенно на шипящих и свистящих;
  3. Рваный ритм. Если сигнал пропадал, ты слышал не просто шум, а цифровое «бульканье» или обрыв фразы. Это раздражает мозг сильнее, чем аналоговый шум. Мозг понимает шум как часть природы, а «кваканье» — как ошибку системы.

Диапазон остался прежним (300-3400 Гц), но из-за агрессивного сжатия голос потерял тембр. Он стал плоским. Думаю, многие помнят, как в середине 2000-х было трудно узнать голос знакомого по GSM-связи — все звучали на одно лицо.

Современность: HD Voice, VoLTE…

И вот мы добрались до сегодня. 4G, VoLTE, 5G. Сейчас качество звука шагнуло далеко вперед. Кодеки вроде AMR-WB (Adaptive Multi-Rate Wideband) расширили диапазон до 50–7000 Гц. А EVS (Enhanced Voice Services) в сетях LTE и 5G вообще творит чудеса, поддерживая частоты вплоть до 20 кГц и битрейт до 128 кбит/с.

Теперь мы слышим не просто согласные, а дыхание собеседника, шепот, интонации. Казалось бы — вот оно, счастье. Но почему же мы часто говорим, что в условном Max голос «режет слух»? Почему VoLTE-звонки кажутся слишком… прямыми?

Ответ прост: психоакустика и излишняя «чистота». Парадокс, но наш мозг устает от слишком детализированного звука.

Во-первых, современные кодеки используют продвинутое шумоподавление. Они вырезают не только шум ветра, но и частоты, которые считают «неречевыми». Это приводит к тому, что голос оказывается как будто в вакууме. А вакуум — он мертвый. Мы не слышим естественной реверберации комнаты, легкого фона. Возникает эффекта «говорящей головы рядом с ухом», что интимно, но со временем начинает напрягать.

Во-вторых, математические модели сжатия (CELP, ACELP и их производные) пытаются предсказывать речь. Кодек анализирует голос, строит его математическую модель и передает не сам звук, а параметры этой модели. На той стороне синтезатор «оживляет» ее. Это гениально с точки зрения экономии трафика, но добавляет звуку тот самый синтетический оттенок.

Пример. В старом фильме «Бриллиантовая рука» звук на натуре пленочный, с легким шумом. В современном блокбастере — каждая монетка звенит отдельно. Первое уютнее, второе зрелищнее. Со звуком телефона так же. Раньше ты разговаривал с человеком «через пространство», сейчас тебе его засовывают прямо в ушной канал с помощью мощного микрофона и шумодава. Слишком интимно, слишком близко, слишком чисто. Это давит.

Цифры и факты: статистика неизбежности

По данным за 2024-2025 годы, технология VoLTE в России уже отвоевала около 45-60% голосового трафика, а в Москве и Питере — и все 70%. Это значит, что «старый звук» (GSM/3G) уходит. Операторам выгодно глушить 2G и 3G, освобождая частоты под LTE. Прогресс не остановить. Но вот что интересно: даже когда инженеры творят чудеса, наше подсознание продолжает бунтовать.

Лабораторные тесты, например, те, что проводила компания Broadcom, подтверждают удивительную вещь: даже при сильном сигнале пользователи стабильно оценивают качество голоса на мобильном телефоне ниже, чем на классической проводной линии. То есть физически звук чище, а нам кажется, что хуже. Думаю, это чистая психология, подкрепленная физикой.

Исследования Международного союза электросвязи вообще вскрыли забавный факт: до 20% пользователей в условиях идеальной цифровой тишины начинают испытывать дискомфорт и переспрашивают: «Ты тут?», «Алло?», «Ты меня слышишь?». Мозг, воспитанный на аналоговом шорохе, интерпретирует полное отсутствие фонового шума как обрыв связи. Мы привыкли, что тишина в трубке — это плохо. А тут она идеальная, и это пугает.

Данные МТУСИ за 2024 год вообще проливают свет на техническую подоплеку этого «металлического» призвука. Оказывается, на тихих фрагментах речи коэффициент гармоник у современных цифровых преобразователей может достигать 30%! При том, что норматив — 1-2%. Эти микроискажения, незаметные в бытовом плане, наше ухо четко считывает как нечто неестественное, синтетическое. Возникает подсознательное отторжение: вроде слышно все, но веришь с трудом.

Думаю, именно поэтому, когда оценивают качество голоса по шкале MOS (Mean Opinion Score) от 1 до 5, возникает парадокс. VoLTE гордо получает свои 4.0–4.5 балла, а старый аналоговый стационарный телефон плетется в хвосте с 3.6–4.0. Но если спросить людей, какому звонку они доверяют больше, с кем разговор кажется более человечным, пальма первенства уйдет «старичку». Цифры не врут, но и уши не обманешь.

Более того, когнитивная нагрузка при разговоре по современным сетям выше. Тесты субъективной оценки (стандарт ITU-T P.800) показывают: при наличии цифровых артефактов вроде джиттера или потери пакетов наш мозг тратит на 15-25% больше усилий на распознавание речи, чем при стабильном, пусть и «глухом», аналоговом сигнале. Мы устаем быстрее, даже не замечая этого. Мы просто кладем трубку и чувствуем легкую опустошенность, думая, что наговорились, а на самом деле — напряглись.

Заключение

Что мы выиграли? Мы выиграли в разборчивости. Сегодня, стоя у метро, ты прекрасно поймешь, какое молоко купить, даже если собеседник шепчет. Связь стала доступной и относительно дешевой. Мы выиграли в технологичности.

Что мы потеряли? Душу. Потеряли ту небольшую шумовую «подушку», которая делала разговор приватным и уютным. Мы потеряли ощущение расстояния, которое почему-то делало голос ближе. Мы променяли «теплый» аналоговый шум на «холодную» цифровую тишину.

Думаю, наши уши еще не до конца эволюционировали под этот стерильный звук. Может быть, через пару поколений люди будут считать звук GSM таким же «ламповым», каким мы сейчас считаем шум винила. Но лично мне немного не хватает того легкого шороха эфира. Он был живым. А современный звук — слишком идеальный, чтобы быть правдой.

romeowhite@yandex.ru
наверх