История цифровизации музыки: от магнитной записи до первого робота-композитора
Каким был переход от аналогового звука в цифровой? Как инженеры энтузиасты создают искусственный интеллект, способный сочинять музыку и как научить петь «Терминатора»?
История
Со времён возникновения Пангеи все биологические виды на планете Земля стремятся воспроизводить звук, а с начала антропогенового периода создавать звуки начал и первый человек. Сейчас трудно представить, на что был похож первый звук изданный видом Homo, но одно совершенно ясно, он точно был. Более поздние археологические находки, например наскальные рисунки эпохи мезолита, говорят нам о возникновении первых духовых инструментов.
Долгие годы эволюции, войн, эпидемий не сломали человеческую веру в прекрасное и в культуре Шумеров появились первые письменные символы для написания музыки. А позже, спустя десятки веков, монах бенедиктинец Гвидо д’Ареццо сформулировал написание нот таким, какими они пришли в современную пятилинейную тактовую нотацию, которой мы пользуемся и по сей день.
За XX век человек изобрёл много всего (как ему казалось) интересного, включая газовые камеры, ядерную бомбу и интернет, и хотя музыка тоже претерпела многие изменения, в целом она осталась такой же, всё той же надеждой на лучшее, что не угасает в человеке на протяжении всего его существования.
XXI век и быстрый технологический скачок начали диктовать новые правила развития музыкальной индустрии. В дело вступил искусственный интеллект. Если быть точным, он стал применяться гораздо раньше во время перехода от аналоговой магнитной аудиозаписи к цифровой, одним из первых подобных проявлений аудио-инженерной мысли была цифровая звуковая рабочая станция Fairlight CMI, созданная в 1979 году талантливым австралийским инженером Питером Вогелем.
Она представляла собой полноценную рабочую станцию, симбиоз синтезатора, сэмплера и секвенсора с возможностью сохранения информации на дискеты. Она состояла из целого набора компонентов, системного блока с преобразователем цифрового сигнала в аналоговый и обратно (ADC/DAC) с впечатляющими даже по сей день частотными характеристиками и сэмплера с возможностью расширения памяти, светочувствительного монитора с пером для рисования линий, символьной клавиатуры и клавишных.
Синтез звука происходил методом аддиктивного синтеза (синтез Фурье), также можно было работать над нарезанными в цифровой форме сэмплами и рисовать синусоидальные волны специальным световым пером на мониторе. Считается что именно этот инструмент дал начало всем DAW — программно-аппаратным и компьютерным цифровым аудио комплексам для создания музыки. Так же можно вспомнить его легендарного американского брата Synclavier от компании New England Digital неоднократно менявшего форму и комплектацию на протяжении всей истории выпуска.
С помощью этого программно-аппаратного комплекса создавали свою музыку такие легендарные музыканты как Frank Zappa, Depeche Mode, Kraftwerk. В отличии от австралийского родственника, этот экземпляр приобрёл более широкую коммерческую известность и с успехом использовался на многих студиях мира.
В конце XX века неожиданную популяризацию получают настольные компьютеры. В числе первых моделей, имевших коммерческий успех были Apple Macintosh, Atari ST и Amiga. Разработчики компьютерного софта, чувствуя наступление новой эры музыкального продакшна, переходят к разработке аудио программ для редакции аудио сэмплов для сэмплеров E-mu Emulator II и Akai s900.
В 1989 компания Sonic Solutions запускает производство первой профессиональной нелинейной системы цифрового аудио редактирования, основанной на компьютере The Maс IIfx с интегрированным управлением цифрового аудио-редактора U-matic Player от компании Sony. Эта комбинация компьютера, аудиософта и аудио-цифрового железа была одним из ранних примеров коммерческого применения того, что сейчас принято называть Digital Audio Workstation или DAW, так, ещё до выпуска в серийное производство система была испытана в подразделении George Lucas’ Spocket Systems, занимавшимся саунд-дизайном фильмов.
К началу XXI века с развитием компьютерных технологий и операционных систем именно компьютерные аудио-цифровые рабочие станции (Softwar DAW) получили широкое распространение, не вытеснив программно-аппаратные комплексы (integrated DAW), но заняв свою прочную нишу в этом сегменте инструментов для создания музыки. Эту точку на бесконечной ленте времени можно смело считать периодом проявления искусственного интеллекта в музыке.
Первые DAW компьютерные
В 1991 году большинство студий в мире приобрели программное обеспечение Pro Tools от компании Digidesign, созданное по образцу традиционного метода и потока сигнала в большинстве аналоговых записывающих устройств. Большая часть DAW тех времён разрабатывалась на базе системы Apple Mac. В 1992 году начали появляться первые DAW для компьютеров с системой Windows от таких разработчиков как Soundscape Digital Technology, Echo Digital Audio, IQS Innovative Quality Softwar. Стоит отметить, что все DAW того времени использовали периферийные устройства для обработки звука DSP.
Что же такое технология DSP? Коротко, это процесс преобразования аналогового сигнала в цифровой формат — Digital Signal Processing, в котором ими можно математически манипулировать, прежде чем преобразовать обратно в аналоговый. Например, возьмём на гитаре низкую ноту Ми. Звуковая волна этой низкой ноты Ми имеет фундаментальную чистоту 80Гц. В DSP этот сигнал 80Гц преобразуется в цифровой форме и дискретизируется с частотой 96 кГц. Теперь представьте процесс сэмплинга, как 96 000 снимков высокого разрешения сигнала, которые выражены 96 000 различными числами, каждым из которых можно математически манипулировать.
Вычисления производятся DSP чипом, запрограммированным инженером. В аналоге, для достижения определённой эквализации звуковой волны может потребоваться очень сложная и трудоёмкая схема, DSP же этот процесс упрощает. По сути, DSP это автономный процесс, в котором мы можем принять сигнал и в течении заданного периода времени. Мы можем сделать всё, что захотим, математически, прежде чем преобразовать его в аналоговый. Предела преобразованиям нет.
В 1993 году немецкая компания Steinberg выпустила Cubase Audio для Atari Falcon 030. Эта версия внедрила встроенные DSP эффекты с 8 дорожечным рекордером и использовала только нативное оборудование. Первым программным продуктом на базе Windows был представлен Samplitude, разработанный ранее для Commodore Amiga.
В 1996 году Steinberg совершает прорыв в области кодировки и, внедряя новую технологию VST (Virtual Studio Technology), являет на свет Cubase VST c 32 дорожечным цифровым аудио рекордером на базе Apple Macintosh, без необходимости использования какого либо периферийного DSP. В Cubase был смоделирован весь интерфейс DLT-LTO рекордера для записи и редактирования, многоканальный микшерный пульт и рэковая стойка эффектов. Это продвинуло DAW на новый уровень и дало начало всем современным системам Software DAW, а главное это внедрение новой технологии VST plug-in, которая даёт возможность с помощью компьютерного алгоритма обрабатывать цифровой сигнал в реальном времени. В 1999 году Steinberg, используя совместные с компанией Propellerhead наработки, развивает технологию в VSTi plug-in, плагин, позволяющий программно моделировать музыкальные инструменты. Тогда же выходит первый стандартный инструмент для Steinberg Cubase – программный синтезатор Neon.
В 2004 году те же мастера кодировки в области обработки цифровых сигналов Steinberg совместно с компанией Yamaha внедряют софт Studio Connection, который создаёт связь между программой Cubase и музыкальными инструментами Yamaha. Таким образом была налажена связь между компьютерной программой и музыкальным инструментом.
Игры разума
В 2000 году при содействии корпорации Yamaha в Барселонском университете Помпеу Фабра были разработаны принципы обработки сигнала, благодаря которому стал возможен полный синтез речи по правилам. В последствии эти наработки были использованы при создании коммерческого продукта Yamaha Vocaloid, способного синтезировать голос поющего человека на основе введённых данных мелодии и текста. Синтез осуществляется путём моделирования речевого тракта с помощью артикулярного и формантного синтеза. 4 версия Vocaloid используется вокалистом Mega-Watts из известной кавер-группе Compressorhead, полностью состоящей из роботов.
Группа возникла в 2013 году и первоначально состояла из четырёхрукого ударника Stickboy, хай-хэта Junior и гитариста Fingers, использующих миди-интерфейс и подключенных к DAW, позже к ним присоединился бас-гитарист Bones, основанный на одноплатном Panda ES, а в 2017 группа пополнилась новыми участниками вокалистом Mega-Watts и ритм гитаристкой Hellga Tarr. Участники с большим успехом проводят туры по всему миру на различных фестивалях. Место менеджера PR и HR специалиста пока ещё остаётся за биологической единицей— человеком, но, учитывая какими темпами искусственный интеллект интегрируется в среду музыкальной индустрии, скоро он не понадобится.
В 2010 году команда специалистов доктор Аджэй Капур и Майкл Дарлинг из Калифорнийского института искусств представила проект под названием Karmetik Machine Orchestra, являющийся роботом, самообучающимся и исполняющим музыку на аналоговых инструментах.
Современный искусственный интеллект уже достиг того уровня, когда немного подучившись у своих создателей, способен сам сочинять и исполнять свои музыкальные композиции. Система обрабатывает огромное количество музыкальных композиций. Запоминает и упорядочивает параметры множества звуковых сигналов, скормленных ей и создаёт свою композицию.
В 2016 году искусственный интеллект на основе нейросетей от научно-исследовательского подразделения Sony Computers Science Laboratories совместно с французским композитором Бенуа Карре написал песню в стиле The Beatles. Искуственный интеллект (в дальнейшем ИИ) под названием Flow Mashines написал трэк Dady’s Car после изучения более 13 000 различных композиций. Программа сочиняла музыку, а Карре писал текст. Стоит заметить, что всё же здесь ещё оставался человеческий фактор, ведь ИИ писал пустую мелодию и без человека она не была бы подогнана под текст. В декабре 2016 Франсуа Паше, являющийся руководителем той же Sony SCL, представил алгоритм DeepBach, который уже без участия человека писал симфоническую музыку только лишь на основе прослушивания произведений известных классических композиторов.
Технологический гигант Google тоже решил не отставать от своих конкурентов и запустил проект Google Magenta, работающим на основе алгоритма генерации музыки Perfomance RNN. Этот ИИ полностью сам задаёт параметры для будущих композиций, но результаты пока оставляют желать лучшего, музыка получается смешанная, неритмичная и вообще написание полноценных композиций остаётся проблемой, так как ИИ не может научиться работать с аккордами.
В августе 2017 компания Amper представила свою версию одноименного ИИ, написавшего композицию Break Free для американской певицы Тарин Саутерн. Стартап изначально планировавшийся для использования в коммерческих целях для создания музыки к рекламным роликам и видео-блогинга получил весьма внушительные инвестиции и планирует развивать продукт дальше, выводя его на новый уровень. Алгоритм этого ИИ может мгновенно выдавать мелодии по заданным параметрам, правда композиционная и звуко-режиссёрская составляющая всё ещё остаётся за человеком, так как алгоритму пока вообще не известно понятие структуры песни.
В том же году Джон Эдс из легендарной студии Abbey Road, где когда-то записывали большинство своих альбомов группа The Beatles, представляет ИИ Abbey Road Red, а уже известный по работе в Sony SCL Франсуа Паше начинает сотрудничать с компанией Spotify, использующей в своих проектах алгоритмы распознавания и запоминания музыки.
Как мы видим, развитие ИИ в музыкальной индустрии идёт очень бурно. Одни технологии быстро сменяются другими и казалось уже ничто не может удержать технологический бум. Но за этим всем конечно же стоят человеческие амбиции и погоня за прибылью. Музыка перестаёт быть как таковой. Музыка, написанная ИИ, лишена смысла, в ней отсутствует та самая неразгаданная учёными творческая энергетика человека, так присущая всем легендарным композициям, которые будут звучать в проигрывателях даже через сотни лет и возможно именно их человек возьмёт с собой на последний корабль с погибающей Земли. Тут важно рассматривать конкретные причины создания композиций.
Для рекламного и презентационного использования данная технология открывает широкие возможности. Компании, рекламные агентства и прочие, продвигающие какой либо продукт, люди избавятся от необходимости воздействия с композитором-аранжировщиком и удешевят производственный процесс. Что касается написания популярной музыки, тут всё гораздо сложнее. Мы просто рискуем получить море штампованной безынициативной однообразной музыки. Хотя, если рассуждать философски, человек просто боится лишения природной монополии на творчество.
Послушав большинство современных поп-исполнителей, иногда даже хочется чтобы Искусственный Интеллект поскорее в полную силу вступил в творческий процесс, может хоть у него получится сделать что-то стоящее, а то человек, судя по стилистике и композиционной составляющей новых песен, явно зашёл в тупик…