Уже в этом десятилетии мы начнем массово сохранять данные в ДНК

Технологии 14.03.2019

Уже в этом десятилетии мы начнем массово сохранять данные в ДНК

Как сообщает tambovinfo.ru, icrosoft намерена предложить коммерческую систему, которая хранит данные в ДНК в течение трех лет. Правильно модифицированный генетический материал может стать невероятно емким носителем информации. Но дезоксирибонуклеиновая кислота также имеет свои недостатки.

Согласно данным IDC, объем данных, произведенных и хранимых нами в 2020 году, достигнет 44 триллионов гигабайт (44 зетабайта). Эта информация сама по себе показывает, что нам нужен эффективный, долговечный и чрезвычайно емкий носитель данных, который позволил бы архивировать мир для будущих поколений. В течение многих лет ученые искали методы, которые помогут достичь этой цели. Согласно информации, опубликованной MIT Technology Review, к концу десятилетия Microsoft планирует выпустить коммерчески доступные устройства, которые хранят данные в ДНК.

Почему ДНК?

ДНК является самой плотной средой информации, известной человечеству. Насколько плотной? Этого нельзя сказать однозначно. Данные, приведенные в различных публикациях, отличаются друг от друга, но когда вы осознаете это, то будете впечатлены. В конце концов, вы не можете быть равнодушными к информации о том, что все фильмы, созданные человеком, вписались бы в размер куба. И не имеет значения, что когда-то это 215 петабайт, иногда «почти зетабайт» (триллион гигабайт), которые теоретически мы можем уместить в 1 грамм ДНК. Преимущество дезоксирибонуклеиновой кислоты заключается в ее долговечности. В отличие от DVD, жестких дисков, ленточных накопителей, материалы ДНК, хранящиеся в прохладном и сухом месте, могут существовать в течение тысячелетий, что подтверждается анализом генетического материала останков неандертальцев, возрастом 430 000 лет, найденных в Испании. Если хранить ДНК при температуре -18 °C и в лабораторных условиях, то ее можно использовать более двух миллионов лет. Кроме того, в случае ДНК нет риска, связанного, например, с использованием ленточных накопителей — очень вероятно, что мы не сможем прочитать данные, хранящиеся на них в течение 100 или 200 лет. В случае с ДНК, как раз наоборот, в будущем это станет еще удобнее и эффективнее.

Работы ведутся с 1988 года. Первым человеком, который сохранил данные в ДНК, был Джо Дэвис. Художник вместе с учеными из Гарвардской медицинской школы в ДНК- последовательности кодировал изображение древнегерманской руны. Информация о белых и черных пикселях занимала всего 35 бит и была введена в бактерию E. coli (Кишечную палочку). В 2012 году команда генетиков из того же университета во главе с Джорджем Черчем и Шри Косури записала книгу из 52 000 слов, 11 изображений JPG и код вируса, написанный на JavaScript.

В прошлом году планка поднялась еще выше: исследователи из Microsoft Research и Вашингтонского университета «записали» на ДНК 200 мегабайт информации, включая видео. Теоретически, бит может быть закодирован в одном нуклеотиде. Это даст емкость 455 эксабайт на грамм материала ДНК. На практике алгоритмы кодирования недостаточно эффективны. Метод, используемый Черчем и Косури, позволил сохранить только 1,28 петабайта данных на грамм. Последующие эксперименты сместтиили этот предел, но никто, кроме команды Янива Эрлиха и Дины Зелински из Колумбийского университета, не смог приблизиться к половине теоретических возможностей, что составляет около 1,8 бит данных в нуклеотиде ДНК. Следует добавить, что 2 бита никогда не будут возможны из-за случайных ошибок записи и чтения. Пара ученых сумела добиться 1,6-байтового результата на нуклеотиде.

Как это работает — в большом упрощении

Если вы помните урок биологии, ДНК состоит из четырех химических соединений: аденина, цитозина, гуанина и тимина (ACGT), которые комбинируются друг с другом характерным, запрограммированным образом. Первый этап — перевод цифрового контента, хранящегося в формах 0 и 1, в строку ACGT. Затем их можно разбить на фрагменты и дополнить информацией, описывающей ее местоположение в выходном файле. На следующем этапе последовательности ДНК фактически «производятся» и помещаются в пробирку. Чтобы прочитать их, нам нужен секвенсор ДНК, который распознает последовательность ACGT и компьютер, возвращающий им двоичные значения и исправляющий ошибки. Также очень важно, чтобы исследователи из Microsoft Research также смогли разработать последовательный доступ. Это означает, что нам не нужно анализировать весь материал, чтобы прочитать необходимую часть данных.

В отличие от других футуристических способов хранения данных, все операции, связанные с записью, считыванием или хранением данных в нуклеотидах, происходят при комнатной температуре, а не, например, в среде, охлаждаемой жидким азотом.

Есть и минусы

Операция записи данных в ДНК очень медленная. Скорость 400 бит в секунду явно недостаточна, чтобы говорить о свободном доступе к данным. Другая проблема заключается в том, что каждая операция секвенирования ДНК уничтожает исходный материал. Это означает, что при каждом прочтении все меньше информации остается. Чтобы избежать потери, мы должны скопировать ДНК, что относительно просто, но это создает другие сложности — это может привести к ошибкам. Но все это только технические проблемы. Реальная задача, стоящая перед новым способом хранения данных, заключается в снижении затрат на создание синтетической ДНК и процесс ее считывания. На данный момент ведутся разговоры о суммах порядка 3500 — 4500 долларов за 1 МБ данных. Для сравнения — чтение генома человека в 2007 году стоил 10 миллионов долларов. Сегодня это можно сделать за 4000 рублей.

Добавить комментарий