20 примеров - как и на что живут РНК-биоинформатики?
October 19, 2018 5 min read
Только что прошел мой второй RNAcentral consortium meeting, и это было настолько интересное мероприятие с точки зрения понимания того, как устроен мир, что я не могу не поделиться этой информацией.
Начну с начала. Моя основная работа состоит в том, что я с 1.5 другими людьми занимаюсь тем, что поддерживаю центральный аггрератор информации по некодирующим РНК под названием RNAcentral. Что это такое и зачем оно нужно?
Есть центральная догма молекулярной биологии: наша генетическая информация кодируется в молекуле под названием ДНК, с нее синтезируется временная молекула - РНК - с которой затем синтезируется белок.
Роль РНК считалась второстепенной примерно до конца 90-ых - начала 2000-ых, когда появилось много данных о том, что огромная доля РНК служит не для кодирования белков, а как-то работает сама по себе и нужна для чего-то еще. Такие РНК называют некодирующими.
Году в 2002 по этому поводу нескольким биоинформатикам в Wellcome Genome Campus'е - Алексу Бейтману, Шону Эдди и Сэму Гриффитс-Джонсу - пришла в голову мысль, что не белками едиными жива биология, и неплохо было бы заняться и РНК тоже.
Лет 5 у Алекса ушло на то, чтобы опубликовать статью об этом, еще лет 5 на то, чтобы пробить финансирование. И вот, в 2012 оказалось, что на свете есть несколько десятков разных баз данных, посвященных разным видам некодирующих РНК.
В 2012 был собран первый RNAcentral consortium meeting, куда были приглашены авторы этих баз данных, и было решено собрать их информацию в единую базу RNAcentral, которую бы поддерживал EMBL-EBI, что находится в Wellcome Genome Campus, что под Кембриджем.
В 2017 к этой компашке присоединился и я, и вот только что прошел мой второй RNAcentral consortium meeting. Мы встретились примерно с 30 разработчиками из 20+ баз данных из самых разных стран, областей биологии и с разными бэкграундами. Мне хочется рассказать немного о каждом, потому что посмотреть на этот винегрет было потрясающе важно и информативно.
Сэм Гриффитс-Джонс когда-то работал в EBI и за неделю создал базу данных семейств РНК Rfam на основе базы
даных белковых семейств Pfam. Процесс создания выглядел примерно так: r/Pfam/Rfam/gc
. После этого
Сэм перебрался в университет Манчестера (там сейчас обитают наши Гейм с Новоселовым, открывшие графен), где
создал базу данных микроРНК miRBase, которая до сих пор является самым посещаемым сайтом университета
Манчестера с 60 тысячами посетителей в месяц. При этом денег у него, похоже, особенно не водится, и средства
на найм разработчика для интерграции с нами он будет изыскивать, когда я закончу писать наш (как бы общий)
микросервис поиска.
Восхитительный Януш Буйницкий сделал ослепительную карьеру в Польше, сначала работая в университете Адама Мицкевича в Познани, а потом перебравшись в Варшаву и сделавшись большим начальником. Я встетил его впервые в Познани 10 лет назад, и уже тогда он считался большим человеком и был одним из членов редколлегии NAR. На что у меня ушли эти 10 лет я так и не понял, а Януш с виду почти не изменился, все такой же моложавый, шустрый и энергичный. У Януша довольно крупная группа, и он уже что-то вроде доктора или член-корра и советник при миинстерстве науки в свои 43.
Робин Гутелл из университета Техаса в Остине в начале 1980-ых ручками строил выравнивания 16s рРНК в текстовом редакторе. Его группа заметила, что если у вас есть 2 позиции выравнивания, и в одной РНК в ней стоят C и G, а в другой они заменились на T и A, то возможно эти нуклеотиды спарены между собой:
aaaaCgggGuu
aaaaTgggAuu
И так они впервые в истории ручками построили вторичные структуры РНК, аж 30 штук, что тогда было крупнейшей базой данных, а Робин чувствовал себя крайне важным и востребованным человеком.
Кстати, у Робина был товарищ, который написал ему текстовый редактор для выравнивания и ушел работать в Эппл. Потом этот товарищ дослужился до высоких позиций, был на короткой ноге с Джобсом, а не так давно в возрасте 50+ все-таки защитился как биоинформатик и сейчас является профессором по компьютерной онкологии. Потом Робин работал в фирме, которая производила крайне востребованный тест на гонорею, и тест работал как раз через 16s РНК, так что он был ценным сотрудником. Их технишн обнаружила, что добавляемый ими агент почему-то распадается в пробе, за что на нее долго орали, что она сапожница и не может аккуратно поставить эксперимент, а это оказалось не багом, а фичей и привело к большому открытию, но технишн кажется так и осталась ни при чем.
Стивен Мериголд из университета Кембриджа - FlyBase маленькая группа человек 5.
Саймон Кей из ENA пользуется Internet Explorer.
Когда в прошлый раз мы пытались импортировать данные из FlyBase посредством INSDC submissions в ENA, у них ушло на этой всего 2 года. На прошлом consortium meeting Стивен Мериголд устроил ему публичный разнос, чего вежливые британцы стараются любой ценой избегать - было очень неожиданно наблюдать такое. В итоге сейчас мы сделали импорт напрямую через JSON'ы, и все стали с радостью работать в обход ENA. Чаще всего я слышу от Саймона и его коллеги Гая Кохрейна фразы вроде "зачем это все новье?"
Питер-Ян Волдерс из университета Гента - моложавый постдок лет 35, тащит свою базу данных LNCipedia в одиночку, написана она на смеси перла и питона, все там довольно грустненько. Профессор обещает ему полторы ставки в помощь, но пока нет ничего и люди из лаборатории только уходят.
Программист Кристиан Кваст из Бремена никогда не хотел быть профессором. В Германии ты работаешь в академии не более 12 лет - начал аспер - и после этого либо 2 постдока и в профессора, либо иди в индустрию. Себастьян провел как раз все свои 12 лет и нашел какой-то обход: он устроился в частный университет на свой очередной вечный постдок. Финансирование его базы данных осуществляется через 3 источника: общество Макса Планка, Elixir и что-то еще. В Германии есть общества Макса Планка, Гельмгольца и Фраунхофера, которые финансируют соответственно фундаментальные исследования, инфраструктуру и прикладные исследования. Раньше они умудрились пробить финансирование от индустрии, поставляя часть данных в открытом доступе, а часть принадлежала их спонсору, но теперь они вступили в Эликсир, и данные общедоступны.
Кристиан руками проверяет код своих сотрудников, доучивает "зеленых" бакалавров лучшим практикам, сравнивает дистрибутивы линукса, раскладки клавиатур, прикольные планшеты для рисования и т.п. Короче, наш человек. У него 5 человек в группе, один уходит, двое - салаги.
Эва Хуала ведет с 3 другими людьми главную базу данных по Арабидопсису (резуховидке Таля). В течение 15 лет они существовали на гранты NSF, но потом их лишили финансирования, и им пришлось решать, что делать. Им пришлось сильно подсуетиться, пустить в ход все свои контакты, закрыть часть данных, а часть поставлять в открытом доступе, и заключить контракты с индустрией, а также напрямую с правительствами Китая и Швейцарии, и этого им хватает на финансирование своих позиций. Когда я сказал Эве, что впечатлен ее мужеством и готовностью тащить проект без денег, она сказала, что у них не было выбора. Хм, означает ли это, что ничего кроме Арабидопсиса они делать не умеют и деваться им было некуда?
Британская BBSRC не продлила нам финансирование 2-3 позиций на Rfam, и теперь народ суетится, пытаясь обосновать значимость базы данных для сообщества и собирая letters of support от всех крупных ресурсов, до кого удается достучаться. Если до марта новая заявка на грант не выстрелит, Иоанне Калвари, которая является основным ее разработчиком, придется отправиться обратно на Кипр (или двинуться в индустрию, что ее, впрочем, вполне устраивает).
Ensembl недавно переехал из Wellcome Trust Sanger Institute в EBI. Это огромный по местным меркам проект с 70-80 сотрудниками и добрым десятком подпроектов и команд. Кровавый перл, масса жуткого старья, и все же они незаменимы со своими ручными и машинными аннотаторами, genome browser'ом и т.п. Выступали представители 3 их подпроектов.
Artemis Hatzigeorgiou и Dimitra Karagkouni из Univ. of Thessaly, Hellenic Pasteur Institute работают в Греции над базами данных TarBase и LncBase.
Тодд Лоу из Университета Калифорнии Санта-Круз со своей верной оруженосцем Партишей Чан, ведет базу данных gtRNAdb, у них тоже группа 4-6 человек.
Дамы-кураторши из HGNC Рут Сил и Элспет Бруфорд представляют группу из 4 таких вот дам-кураторш, которые со скрипом наскребают деньги на свои 4 ставки, чтобы вести Human Genome Nomenclature, вообще-то довольно важную.
Трое мокрых биологов и трое программистов в Познани у Мацея Шыманского из t-Rex. Его жена - директор прекрасного местного ботсада. У них очень красивый сайт, красивый город и вообще все здорово. Молодцы, поляки.
Лина Ма ведет в Китае хороший проект LncWiki, превратившийся позднее в LncBook. У них 3 программиста.
Written by Boris Burkov who lives in Moscow, Russia, loves to take part in development of cutting-edge technologies, reflects on how the world works and admires the giants of the past. You can follow me in Telegram