Скачать 189.7 Kb.
|
Занятиe 15Задание №1. Поиск сигналов регуляции транскрипции в бактериальных последовательностяхВ директории P:\y05\Term3\Signals найдите поддиректорию, названную Вашим логином, а в ней — файл с расширением dnc, содержащий набор нуклеотидных последовательностей в Fasta-формате. С этими последовательностями Вы будете работать в первом задании. Вам необходимо найти сигнал (набор сайтов) в полученных последовательностях с помощью программ AlignACE 3.0 и MEME. Инструкции по работе с программами см. ниже. В файле "PurR_sites.doc" приведены последовательности перед генами, экспрессия которых регулируется пуриновым репрессором PurR. Экспериментально установленные сайты связывания белка PurR выделены в них синим цветом. Задача состоит в том, чтобы определить, при каких длинах последовательностей и каком числе лишних (то есть не содержащих сайта) последовательностей каждая программа способна находить сайты, совпадающие с экспериментальными. Поэтому с помощью двух упомянутых выше программ Вам надо найти сигнал длиной 16 нуклеотидов. Часть выданных Вам последовательностей не содержит сайтов. Поэтому не удивляйтесь, если сайты будут найдены не во всех последовательностях. Сайт считается совпадающим с экспериментальным, если он пересекается с ним на 8 или более нуклеотидов. Ответ на задание следует представить в виде файла в формате *.doc с размеченными последовательностями. Для этого
То есть ответ должен выглядеть так: >prsA ttcagcaatgattgcgaggttatcgcaagaaaacgttttcgcgaggttgatgcggtgctttcctggctgttagaatacgccccgtcgcgcctgactgggacaggggcctgtgtctttgctgaatttga В данном случае: аagaaaacgttttcgc - экспериментально установленный сайт связывания PurR gttatcgcaagaaaacgt - сайт, найденный с помощью программы AlignACE 3.0 aaacgttttcgcgagg - сайт, найденный с помощью программы MEME с параметром «One per sequence» gcaagaaaacgttttc - сайт, найденный с помощью программы MEME с параметром «Zero or one per sequence» Все выше перечисленные предсказанные сайты считаются совпадающим с экспериментальным, поскольку пересекаются с ним более чем на 8 нуклеотидов. gggacaggggcctgtgtc - сайт, найденный с помощью программы AlignACE 3.0, но не совпадающий с экспериментальным. Инструкция по использованию программы AlignACE 3.0 Программа AlignACE предназначена для поиска сходных сайтов в нескольких последовательностях. On-line версия программы AlignACE 3.0 находится по адресу http://atlas.med.harvard.edu/cgi-bin/alignace.pl. Окно программы содержит следующие поля: Enter sequence description – описание вводимых последовательностей (заполнять не обязательно). Number of columns to align – минимальная длина для искомого слова (при выполнении задания следует искать сигнал длиной 16 нуклеотидов). Number of sites to expect – суммарное количество сайтов, которое Вы желаете найти во всех введенных последовательностях. Fractional background GC content – содержание GC-пар в искомых сайтах; указывается в виде десятичной дроби. Этот параметр необходим для того, чтобы программа не принимала за сайты достаточно часто встречающиеся AT-богатые последовательности. По умолчанию программа выставляет значение 0.38; его и рекомендуется использовать при выполнении задачи.Вводить последовательности, в которых будет производится поиск сайтов, возможно двумя способами:
(в некоторых браузерах эта кнопка называется “Browse…”) Этой опцией пользоваться не рекомендуется, так как она ведет к неудобствам в использовании результатов (см. ниже). Поэтому при выполнении задания последовательности должны быть представлены в FASTA-формате, то есть внесены в окно Enter FASTA-formatted sequence below После заполнения всех необходимых полей, нажимайте “Подача запроса” (в некоторых браузерах эта кнопка называется “Submit Query”) После этого перезагружается та же самая страница, но уже с полученными результатами под перечисленными выше окнами. Результаты. Результаты представляют собой сообщения о параметрах, с которыми был запущен запрос, список введенных последовательностей и все найденные сайты, выравненные между собой. В первых двух строках сообщается информация о версии программы (в данном случае - 3.0) и исходных параметрах. Далее приводится информация уже обо всех параметрах, часть из которых программа сама и устанавливает, и нумерованный список последовательностей, например: Input sequences: #0 caiT #1 araB #2 nmpC #3 nagB #4 dadA #5 gapA #6 flhD #7 dsdX Последовательности нумеруются в соответствии с порядком, в котором они приводятся в окне Enter FASTA-formatted sequence below. Будьте внимательны! Нумерация начинается не с 1, а с 0. Сведения о каждом наборе найденных сайтов представлены в виде следующей таблицы: Motif 1 ATTGGTGATCCATAAAACAATA 0 22 0 TTCTGTGATTGGTATCACATTT 0 142 0 ATTTGTGAAGTAGATCTCTATT 2 231 0 TTTGGTGACAAAACTCACAAAA 3 122 0 AGATGTGAGCCAGCTCACCATA 4 183 1 AATCGTGATGAAAATCACATTT 5 73 1 ATGCGTGATGCAGATCACACAA 6 29 0 TAAAGTGAACCATATCTCAATT 7 145 1 TGGAGTGATTTACATCTAAAAA 7 175 0 ** **** * ********* MAP Score: 16.8184 1) при использовании функции Or select file для ввода последовательностей on-line версия программы автоматически присваивает всем последовательностям номер #0, поэтому приходится вносить последовательности в окно Enter FASTA-formatted sequence below
Например, для одного из сайтов программа выдала следующее: ATTGGTGATCCATAAAACAATA 0 22 0 Это значит, что сайт найден в последовательности, которой программа присвоила #0. Во-первых, выясните название этой последовательности (см. выше). То, что в последней колонке стоит “0”, означает, что сайт найден в цепи, комплементарной введенной. Следовательно, необходимо искать не тот сайт, который выдала программа, а обратно-комплементарный ему. Например, для приведенного выше сайта обратно-комплементарная последовательность будет иметь вид: TATTGTTTTATGGATCACCAAT Допустим, номер #0 был присвоен последовательности с именем caiT. Тогда найденный в ней сайт будет располагаться вот так: >caiT ttatatgcatatctcgtgatattattgttttatggatcaccaatcattctgatgtcagtagctaggg 22 нуклеотида Наборы сайтов располагаются в порядке уменьшения веса сигнала. Понятно, что наибольший вес будет иметь первый набор сайтов, который и является лучшим. При выполнении задания необходимо изменять параметр Number of sites to expect, пока не будет найден наилучший набор сайтов. Вначале следует в соответствующем поле указать число, равное количеству последовательностей в Вашем варианте задания (то есть попытаться найти в каждой последовательности по одному сайту). Далее необходимо при каждой следующей попытке уменьшать Number of sites to expect на единицу. Наилучшим набором сайтов будет считаться тот первый набор из списка, вес сигнала для которого будет превышать вес второго набора сайтов как минимум в 1,5 раза. Эти сайты и следует пометить в последовательностях. В случае, если такового набора сайта не удастся обнаружить ни при одном значении параметра Number of sites to expect, то лучшим набором сайтов будет считаться тот, вес которого будет максимальным для всех лучших наборов сайтов, найденных при всех значениях Number of sites to expect. Пример. Вы получили вариант, где содержится 12 последовательностей. При первой попытке поиска сигнала Вы устанавливаете Number of sites to expect равным 12, и, если не удалось сразу же получить разницу весов между первым и вторым наборов сайтов в 1,5 раза, то производятся повторные попытки поиска сигнала, но уже с меньшими значениями Number of sites to expect. Однако, использовать значения данного параметра, меньшие 6, не имеет смысла, поскольку при таких значениях статистическая значимость обнаруженного сигнала будет недостаточно высока. Если же ни при одном значении Number of sites to expect не удалось обнаружить такого наилучшего набора сайтов, то за наилучший выбирается тот набор, вес которого максимален среди всех первых наборов сайтов для различных значений Number of sites to expect. Инструкция по использованию программы MEME On-line версия программы MEME находится по адресу http://meme.sdsc.edu/meme/meme.html Окно программы содержит следующие поля: Your e-mail address: Ваш электронный адрес, на который будут высланы результаты. Re-enter e-mail address: То же самое, еще раз Ввести последовательности, в которых будет производится поиск сайтов, возможно двумя способами:
(в некоторых браузерах эта кнопка называется “Browse…”)
Description of your sequences: описание вводимых последовательностей, данное поле не обязательно для заполнения. How do you think the occurrences of a single motif are distributed among the sequences? - необходимо пометить, сколько сайтов одного типа Вы рассчитываете найти в каждой последовательности.
При выполнении задания необходимо произвести поиск два раза: в первый раз установив One per sequence, во второй – Zero or one per sequence. MEME will find the optimum width of each motif within the limits you specify here: длина искомого сайта, необходимо задать минимальную и максимальную длину в располагающихся ниже окнах. При выполнении задания надо установить и минимальную, и максимальную длину сайта 16 нуклеотидов. Maximum number of motifs to find: количество различных типов сигналов, которые предполагается найти. При выполнении задания необходимо указать значение 1, то есть искать только один тип сигнала. MEME will find the optimum number of sites for each motif within the limits you specify here: - количество сайтов каждого типа, которое предполагается найти во всей обучающей выборке. Данная функция имеет смысл лишь в том случае, если предполагается найти более 1 сайта в каждой последовательности. Поэтому, при выполнении задания поля Minimum sites (>= 2) и Maximum sites (<= 300) следует оставить пустыми. Следующие четыре функции не потребуются для выполнения задания и поэтому возле них не должно стоять галочек:
После того, как все необходимые поля заполнены, нажимайте “Start search” (в некоторых браузерах эта кнопка называется “Submit Query” После этого результаты будут высланы Вам по почте на адрес, указанный в окне Your e-mail address. В обновленном окне браузера при этом появляется информация о входных данных:
Работа с результатами. В ответ на запрос на почтовый ящик высылаются следующие письма:
Программа MAST, используя полученный с помощью программы МЕМЕ профиль для распознавания сайта, картирует сайты в тех последовательностях, которые были использованы для поиска сигнала. Для выполнения задания Вам потребуются только результаты программы МЕМЕ. Файл с результатами содержит несколько разделов. MEME - Motif discovery tool – информация об используемой версии программы. REFERENCE – ссылка на статью о программе. TRAINING SET – сведения о введенных последовательностях. COMMAND LINE SUMMARY - информация обо всех параметрах, часть из которых программа сама и устанавливает. Далее следует описание каждого найденного сигнала. В первой строке сообщаются сведения о длине сайта (width), количестве найденных сайтов (sites) и приводятся различные критерии оценки статистической значимости сайта (llr и E-value). simplified pos.-specific probability matrix – построенная на основании найденных сайтов матрица вероятности нуклеотидов. По вертикали указаны нуклеотиды, а по горизонтали – позиции в последовательности сайта. Вероятность данного нуклеотида в данной позиции указывается в десятых долях, то есть, если в матрице стоит число 7, то частота этого нуклеотида в данной позиции равна 0,7. “:” – данный нуклеотид не встречается в этой позиции “a” – данный нуклеотид встречается в этой позиции со 100%-ной вероятностью Information Content Diagram – диаграмма, показывающая информационное содержание каждой позиции. Является аналогом Logo. Multilevel consensus sequence – консенсусная последовательность для найденного сайта. Далее приводится таблица, включающая сведения о найденных сайтах: NAME STRAND START P-VALUE SITESgapA + 74 1.68e-08 GCTGCACCTA AATCGTGATGAAAATCACATTT TTATCGTAAT mtlA + 21 6.74e-08 ATCAAAACAA AAATGTGACACTACTCACATTT AAATGCCATT tnaL + 206 9.82e-08 CTCCCCGAAC GATTGTGATTCGATTCACATTT AAACAATTTC caiT - 143 9.82e-08 ATAAGCTGTA TTCTGTGATTGGTATCACATTT TTGTTTCGGG exuT - 148 1.40e-07 TACAACTTTA AAAGGTGAGAGCCATCACAAAT GTGGGAATAT NAME – имя последовательности STRAND – Цепь ДНК, в которой найден сайт: “+” - введенная последовательность, “–” - комплементарная ей START – положение сайта (то есть положение первой позиции сайта относительно начала последовательности) P-VALUE – критерий статистической значимости сайта, чем он ниже, тем сайт имеет большую значимость. Сайты в списке перечислены именно по возрастанию p-value. SITES – выравненные последовательности найденных сайтов. Приводятся последовательности сайтов (раскрашены) плюс по 10 нуклеотидов с каждой стороны. В случае, если сайт найден не во введенной цепи, а в комплементарной ей, то опять же необходимо искать обратно-комплементарный ему. Например, в результатах приведен следующий сайт: codB - 17 9.57e-09 TGAAGATAAA AAGCAATCGTTTTCGTG GGGAAATATA Вам следует искать обратно-комплементарный ему, то есть CACGAAAACGATTGCTT В рассматриваемой последовательности такой сайт будет располагаться следующим образом: aaaaaatatatttccccacgaaaacgattgctttttatcttcagatgaatagaatgcggcggatttttt 16 нуклеотидов Будьте внимательны! В отличие от программы AlignACE 3.0, здесь указывается не количество нуклеотидов до начала сайта, но положение первой позиции сайта. Block diagrams – графическое отображение расположения сайтов по последовательностям, “+” и “–” обозначают цепи ДНК, в которых найден сайт (так же, как и в предыдущем случае). Задание №2. Поиск сайтов в эукариотических последовательностяхВо втором задании Вам необходимо будет найти сайты для известных сигналов в полученных последовательностях с помощью программы rVISTA. Для выполнения этого задания необходимо будет сравнить две пары последовательностей. Последовательности лежат в поддиректории rVista директории P:\y05\Term3\Signals\<ваш логин>. Одна последовательность из каждой пары взята из генома человека, другая – из генома мыши. При выполнении задания следует сравнивать последовательности из файлов с одинаковыми названиями (Например, из файлов B1_Human.txt и B1_Mouse.txt. Если же вы возьмете, допустим, B1_Human.txt и А1_Mouse.txt, у Вас ничего не получится – эти последовательности относятся к разным генам и выравниваться не будут). Все последовательности, с которыми Вы будете работать, представляют собой промоторные области генов, экспрессирующихся в мышечной ткани. Поэтому в них Вы будете пытаться найти сайты связывания мышечно-специфичных факторов транскрипции. Вам потребуется найти сайты для восьми таких факторов:
Список этих факторов приведен также в инструкции по использованию программы (см. ниже). Ответ должен состоять из двух частей:
Программа выдает выравнивания, на которых отмечен сайт только для одного транскрипционного фактора и только по одной цепи. Вам же следует на одно выравнивание нанести все найденные сайты, отметив их по обеим цепям. Например, программа выдала: Для фактора MEF2 : 60 70 80 90 100 110 seq1 TTGCCCCTCTAGCCCCTGTCCGTACCGAGAAGCCCCAAGAGGAGCAGGACCCCAAGCGGA | || || || ||||||||| |||| | || || ||| |||||| | |||||| || seq2 TGGCTCCCCTGACCCCTGTCCCTACCAAAGAGTGTCAGGAGAAGCAGGGCACCAAGCAGA 50 60 70 80 90 100 120 130 140 150 160 170 seq1 GCCCTTGCCATCCTGCTGCGTGGTTCTCAGGGTTATTCTGAGCTCTGGCAGGCTTGGAGG |||| |||||||||| || ||||||||| |||||||||||||| || || |||| |||| seq2 GCCCCTGCCATCCTGATGTCTGGTTCTCA-GGTTATTCTGAGCTTTGACAAGCTT-GAGG 110 120 130 140 150 160 Для фактора MYOD : seq1 TTGCCCCTCTAGCCCCTGTCCGTACCGAGAAGCCCCAAGAGGAGCAGGACCCCAAGCGGA | || || || ||||||||| |||| | || || ||| |||||| | |||||| || seq2 TGGCTCCCCTGACCCCTGTCCCTACCAAAGAGTGTCAGGAGAAGCAGGGCACCAAGCAGA 50 60 70 80 90 100 120 130 140 150 160 170 seq1 GCCCTTGCCATCCTGCTGCGTGGTTCTCAGGGTTATTCTGAGCTCTGGCAGGCTTGGAGG |||| |||||||||| || ||||||||| |||||||||||||| || || |||| |||| seq2 GCCCCTGCCATCCTGATGTCTGGTTCTCA-GGTTATTCTGAGCTTTGACAAGCTT-GAGG 110 120 130 140 150 160 Ваш ответ в данном случае должен выглядеть так: MYOD seq1 TTGCCCCTCTAGCCCCTGTCCGTACCGAGAAGCCCCAAGAGGAGCAGGACCCCAAGCGGA | || || || ||||||||| |||| | || || ||| |||||| | |||||| || seq2 TGGCTCCCCTGACCCCTGTCCCTACCAAAGAGTGTCAGGAGAAGCAGGGCACCAAGCAGA MEF2 seq1 GCCCTTGCCATCCTGCTGCGTGGTTCTCAGGGTTATTCTGAGCTCTGGCAGGCTTGGAGG |||| |||||||||| || ||||||||| |||||||||||||| || || |||| |||| seq2 GCCCCTGCCATCCTGATGTCTGGTTCTCA-GGTTATTCTGAGCTTTGACAAGCTT-GAGG Если сайты разных факторов будут перекрываться между собой, то их необходимо выделять так, чтобы было видно, какие именно нуклеотиды принадлежат к данному фактору, например MYOD SP1 seq1 TTGCCCCTCTAGCCCCTGTCCGTACCGAGAAGCCCCAAGAGGAGCAGGACCCCAAGCGGA | || || || ||||||||| |||| | || || ||| |||||| | |||||| || seq2 TGGCTCCCCTGACCCCTGTCCCTACCAAAGAGTGTCAGGAGAAGCAGGGCACCAAGCAGA 2. Результаты расчета, на сколько нуклеотидов приходится один сайт.
В ответе Вы должны привести выравнивания и результаты вычислений для обеих пар последовательностей. Инструкция по использованию программы rVISTA. On-line версия программы rVISTA находится по адресу http://genome.lbl.gov/vista/rvista/submit.shtml Перейдя по данному адресу необходимо в окне Total number of sequences набрать цифру “2” (поскольку Вам необходимо будет выровнять между собой две последовательности) и нажать “Submit” Таким образом Вы перейдете в окно программы. Окно программы содержит следующие поля: Your email address: Ваш электронный адрес, на который будут высланы результаты. Sequence #1: последовательность из генома человека; Sequence #2: последовательность из генома мыши. Обязательно проследите, чтобы первой была именно последовательность из генома человека, иначе можете запутаться в результатах. Для заполнения этих полей требуется воспользоваться кнопкой “Обзор” (в некоторых браузерах эта кнопка называется “Browse…”) Далее, оставив остальные окна нетронутыми, необходимо поставить галочку возле поля Find potential transcription factor binding sites using rVISTA, чтобы программа нашла в выравненных последовательностях потенциальные сайты связывания транскрипционных факторов, и нажать “Submit” В новом окне содержатся функции, требуемые для поиска сайтов связывания. Следует поставить пометки возле надписей Use TRANSFAC matrices и vertebrates, после чего нажать “Submit”
инажать После этого в новом окне появится сообщение Your sequences were successfully submitted. An email will be sent to you when your request is processed. Это значит, что результаты уже высланы на адрес, указанный в поле Your email address В полученном письме будет содержаться ссылка на страницу с результатами, по этой ссылке Вам и следует перейти. В открывшемся окне вам будут предложено несколько возможных форматов для полученных результатов. Наиболее удобным для выполнения данной задачи является формат программы rVISTA. Поэтому Вам необходимо кликнуть на любую из ссылок rVISTA (в правой части экрана). По этой ссылке Вы перейдете в окно Choose matrices to visualize, в котором будут перечислены все факторы транскрипции, отмеченные вами ранее. Возле каждого из названий поставьте галочку и нажмите После этого Вы попадете на страницу Visualization Options, где в средней колонке увидите перечислены все факторы транскрипции, сайты для которых Вы пытаетесь найти. Возле каждого имени фактора находится надпись view in alignment, кликнув по которой, Вы перейдете на страницу с выравниванием. Найденные сайты связывания данного фактора будут показаны на розовом фоне. |
Как вставить кнопку (ссылку) в шаблон Google Sites? В панели управления сайтом (google com/sites и на открывшейся странице ввести имя пользователя и пароль) |
Инструкция по установке обновления программного средства В файле «Что нового в вк увэд версии 0». doc содержится описание новой функциональности, включённой в версию 0 |
||
Инструкция по установке обновления программного средства В файле «Что нового в вк увэд версии 0». doc содержится описание новой функциональности, включённой в версию 0 |
Инструкция по установке в файле install doc Основное отличие 31. 5 от 31. 4 Кнд 1111053 (форма с-09-3-1) в соответствии с приказами Федеральной налоговой службы от 21. 11. 2011 № ммв-7-6/790@, 31. 10. 2010... |
||
Инструкция по монтажу панелей марок псб и пкб doc Мдс 12-49. 2009... Рд-10-33-93 Стропы грузовые. Требования к устройству и безопасной эксплуатации doc |
Инструкция по монтажу панелей марок псб и пкб doc Мдс 12-49. 2009... Рд-10-33-93 Стропы грузовые. Требования к устройству и безопасной эксплуатации doc |
||
Инструкция по установке в файле install doc Основное отличие 37 от 36. 2 Разработано по ввода и формирования файла в формате передачи данных налоговой декларации по налогу на имущество (кнд 1152026) в электронной... |
Техническое задание (далее тз) подготавливается в виде электронного... Техническое задание (далее – тз) подготавливается в виде электронного документа в текстовом формате (form 2 tz doc) по приведенной... |
||
Техническое задание (далее тз) подготавливается в виде электронного... Техническое задание (далее – тз) подготавливается в виде электронного документа в текстовом формате (form 2 tz doc) по приведенной... |
Инструкция по установке в файле install doc Основное отличие 32 от 31. 6 Разработано по ввода и формирования xml файла в формате передачи данных сообщения об утрате права на применение упрощенной системы... |
||
Инструкция по установке в файле install doc Основное отличие 22. 2 от 22. 1 Разработано по ввода и формирования бумажного носителя с двумерным штрих-кодом символики pdf417 уведомления об открытии(закрытии)... |
Инструкция по установке в файле install doc Основное отличие 23 от 22. 2 Разработано по ввода и формирования xml файла в формате передачи данных в соответствии с приказом фнс россии от 25. 11. 2010 № ммв-7-3/654@... |
||
Инструкция по установке в файле install doc. Установка только на версию 43 или 43. 1! Разработано по формирования бумажного носителя заявления о подтверждении права на осуществление уменьшения исчисленной суммы налога... |
Отчет по лабораторной работе выполняется в виде связного (читаемого)... Результаты выполнения всех пунктов инструкции, которые выделены серым фоном (см ниже): результаты вычислений, графики, ответы на... |
||
Инструкция по заполнению Пояснительной записки Общие требования Пояснительная записка (далее – пз) к Заявке подготавливается в виде электронного документа в текстовом формате (form 1 pz doc) с... |
Всн-604-iii-87 Техника безопасности линейно-кабельных сооружений doc Рп пр. Москвы №2260-рп о мерах по обеспечению безопасности труда на объектах строительства doc |
Поиск |