Как компьютеры помогают биологам разобраться в секретах жизни

После того, как генофонд длиной в три миллиарда букв был упорядочен, мы бросились в новую "omics«Эпоха биологических исследований. Ученые теперь участвуют в последовательности геномов (всех генов) или протеомов (всех белков) различных организмов - и в этом процессе собираются огромные объемы данных.

Например, ученый может использовать инструменты «omics», такие как секвенирование ДНК, чтобы дразнить, какие человеческие гены влияют на вирусную инфекцию. Но поскольку в геноме человека есть, по крайней мере, гены 25,000, количество генов, измененных даже при таком простом сценарии, потенциально может быть в тысячах.

Хотя секвенирование и идентификация генов и белков дает им имя и место, оно не говорит нам, что они делают. Нам нужно понять, как эти гены, белки и все вещи между взаимодействуют в разных биологических процессах.

Сегодня даже базовые эксперименты дают большие данные, и одной из самых больших проблем является устранение соответствующих результатов из фонового шума. Компьютеры помогают нам преодолевать эту гору данных; но они могут сделать еще один шаг вперед, помогая нам придумать научные гипотезы и объяснить новые биологические процессы. Научная наука, по сути, позволяет передовые биологические исследования.

Компьютеры к спасению

Компьютеры имеют уникальную квалификацию для обработки массивных наборов данных, поскольку они могут одновременно отслеживать все важные условия, необходимые для анализа.


графика подписки внутри себя


Хотя они могут отражать человеческие ошибки они запрограммированы, компьютеры могут эффективно обрабатывать большие объемы данных, и они не привязаны к знакомым, как могут быть исследователи.

Компьютеры можно также научить искать конкретные образцы в экспериментальных наборах данных - понятие, называемое машинным обучением, впервые предложенное в 1950, в первую очередь математиком Алан Тьюринг, Затем алгоритм, который изучил шаблоны из наборов данных, может попросить сделать прогнозы на основе новых данных, с которыми он никогда не сталкивался раньше.

Машинное обучение революционизировало биологические исследования, поскольку теперь мы можем использовать большие наборы данных и просить компьютеры помочь понять лежащую в основе биологию.

Обучение компьютерам мыслить имитируя мозговые процессы

Мы использовали один интересный тип машинного обучения, называемый искусственной нейронной сетью (ANN), в нашей собственной лаборатории. Мозги представляют собой сильно взаимосвязанные сети нейронов, которые сообщаются, посылая электрические импульсы через нейронную проводку. Аналогично, ANN имитирует в компьютере сеть нейронов, когда они включаются и выключаются в ответ на сигналы других нейронов.

Применяя алгоритмы, имитирующие процессы реальных нейронов, мы можем заставить сеть научиться решать многие типы проблем. Google использует мощный ANN для своего знаменитого Проект Deep Dream где компьютеры могут классифицировать и даже создавать образы.

Наша группа изучает иммунную систему, с целью выяснение новых методов лечения рака, Мы использовали вычислительные модели ANN для изучения коротких поверхностных белковых кодов, которые используют наши иммунные клетки, чтобы определить, является ли что-то чуждо нашему организму, и поэтому его следует атаковать. Если мы понимаем больше о том, как наши иммунные клетки (такие как Т-клетки) различают нормальные / я и аномальные / инородные клетки, мы можем разработать лучшие вакцины и методы лечения.

На протяжении многих лет мы просматривали общедоступные каталоги тысяч белковых кодов, идентифицированных исследователями. Мы разделили этот большой набор данных на два: нормальные коды самоэксплуатации, полученные из здоровых человеческих клеток, и аномальные белковые коды, полученные из вирусов, опухолей и бактерий. Затем мы обратились к искусственной нейронной сети, разработанной в нашей лаборатории.

Как только мы подавали белковые коды в ANN, алгоритм смог идентифицировать фундаментальные различия между нормальными и аномальными белковыми кодами. Человеку было бы сложно следить за этими биологическими явлениями - буквально тысячи этих белковых кодов анализируются в большом наборе данных. Требуется машина, чтобы пресечь эти сложные проблемы и определить новую биологию.

Прогнозы через машинное обучение

Наиболее важным применением машинного обучения в биологии является его полезность при составлении прогнозов на основе больших данных. Компьютерные прогнозы могут осмыслить большие данные, проверить гипотезы и сэкономить драгоценное время и ресурсы.

Например, в нашей области биологии Т-клеток, зная, какие вирусные белковые коды для достижения цели имеют решающее значение для разработки вакцин и лечения. Но существует так много отдельных белковых кодов от любого данного вируса, что очень дорого и сложно экспериментально протестировать каждый из них.

Вместо этого мы обучили искусственную нейронную сеть, чтобы помочь машине узнать все важные биохимические характеристики двух типов белковых кодов - нормальные и ненормальные. Затем мы попросили модель «предсказать», какие новые коды вирусных белков напоминают «ненормальную» категорию и могут быть видны Т-клетками и, следовательно, иммунной системой. Мы протестировали модель ANN на различные вирусные белки, которые ранее не изучались.

Конечно же, как прилежный ученик, желающий угодить учителю, нейронная сеть смогла точно идентифицировать большинство таких белковых кодов, активирующих Т-клетки, внутри этого вируса. Мы также экспериментально протестировали протеиновые коды, отмеченные им, чтобы подтвердить точность предсказаний ANN. Используя эту модель нейронной сети, ученый может таким образом быстро прогнозировать все важные короткие белковые коды от вредного вируса и протестировать их для разработки лечения или вакцины, вместо того, чтобы гадать и тестировать их индивидуально.

Внедрение машинного обучения с умом

Благодаря постоянному рафинированию большая наука о данных и машинное обучение становятся все более незаменимыми для любых научных исследований. Возможности использования компьютеров для обучения и прогнозирования в биологии почти бесконечны. Из определения того, какая комбинация биомаркеров лучше всего подходит для выявления болезни, чтобы понять, почему некоторые пациенты получают преимущества от конкретного лечения рака, разработка больших наборов данных с использованием компьютеров стала важным направлением для исследований.

Конечно, есть ограничения. Самая большая проблема с большой наукой о данных - это сами данные. Если данные, полученные в результате исследований по -OMICS, начинаются с нуля или основаны на дрянной науке, машины будут обучены плохим данным, что приведет к плохие прогнозы, Студент так же хорош, как и учитель.

Поскольку компьютеры не чувствительны (еще), они могут в своих поисках шаблонов придумывать их, даже когда их не существует, что вновь порождает плохие данные и невоспроизводимые науки.

И некоторые исследователи вызывают озабоченность по поводу того, что компьютеры становятся черные ящики данных для ученых, которые не ясно понимают манипуляции и махинации, которые они выполняют от их имени.

Несмотря на эти проблемы, преимущества больших данных и машин будут продолжать делать их ценными партнерами в научных исследованиях. С учетом предостережений мы однозначно готовы понять биологию глазами машины.

Об автореБеседа

Шри Кришна, Кандидат PhD, Биологический дизайн, Школа систем биологических и медицинских систем, Аризонский государственный университет и Диего Чауэлл, аспирант прикладной математики, Государственный университет Аризоны

Эта статья изначально была опубликована в Беседа, Прочтите оригинал статьи.


Связанные книги:

at Внутренний рынок самовыражения и Amazon