Sekwencjonowanie egzomów - Exome sequencing

Przepływ pracy sekwencjonowania Exome: Część 1.
Przepływ pracy sekwencjonowania Exome: część 1.

Sekwencjonowanie egzomu , znane również jako sekwencjonowanie całego egzomu ( WES ), to genomiczna technika sekwencjonowania wszystkich regionów kodujących białka genów w genomie (znanym jako egzom ). Składa się z dwóch kroków: pierwszym krokiem jest wybranie tylko podzbioru DNA, który koduje białka . Regiony te znane są jako eksony – ludzie mają około 180 000 egzonów, stanowiących około 1% ludzkiego genomu , czyli około 30 milionów par zasad . Drugim krokiem jest sekwencjonowanie egzonowego DNA przy użyciu dowolnej wysokoprzepustowej technologii sekwencjonowania DNA .

Celem tego podejścia jest identyfikacja wariantów genetycznych, które zmieniają sekwencje białek, i to przy znacznie niższych kosztach niż sekwencjonowanie całego genomu . Ponieważ warianty te mogą być odpowiedzialne zarówno za choroby mendlowskie, jak i powszechne choroby wielogenowe , takie jak choroba Alzheimera , sekwencjonowanie całego egzomu znalazło zastosowanie zarówno w badaniach naukowych, jak iw diagnostyce klinicznej.

Przepływ pracy sekwencjonowania Exome: Część 2.
Przepływ pracy sekwencjonowania Exome: część 2.

Motywacja i porównanie z innymi podejściami

Sekwencjonowanie egzomów jest szczególnie skuteczne w badaniach nad rzadkimi chorobami Mendla, ponieważ jest skutecznym sposobem identyfikacji wariantów genetycznych we wszystkich genach danej osoby. Choroby te są najczęściej spowodowane bardzo rzadkimi wariantami genetycznymi, które występują tylko u niewielkiej liczby osobników; z kolei techniki takie jak macierze SNP mogą wykrywać tylko wspólne warianty genetyczne, które są wspólne dla wielu osobników w szerszej populacji. Ponadto, ponieważ ciężkie warianty powodujące chorobę są znacznie bardziej prawdopodobne (ale nie wyłącznie) w sekwencji kodującej białko, skupienie się na tym 1% kosztuje znacznie mniej niż sekwencjonowanie całego genomu, ale nadal wykrywa wysoką wydajność odpowiednich wariantów.

W przeszłości kliniczne testy genetyczne były wybierane na podstawie prezentacji klinicznej pacjenta (tj. skupiały się na jednym genie lub niewielkiej liczbie, o której wiadomo, że są związane z konkretnym zespołem) lub badane tylko niektóre rodzaje zmienności (np. porównawcza hybrydyzacja genomowa ). ale dostarczył ostatecznych diagnoz genetycznych u mniej niż połowy wszystkich pacjentów. Obecnie coraz częściej stosuje się sekwencjonowanie egzomów jako uzupełnienie tych innych testów: zarówno w celu znalezienia mutacji w genach, o których już wiadomo, że powodują chorobę, jak i w celu identyfikacji nowych genów poprzez porównywanie egzomów od pacjentów o podobnych cechach.

Metodologia techniczna

Krok 1: Strategie wzbogacania celu

Metody wzbogacania celu pozwalają na selektywne wychwytywanie interesujących regionów genomu z próbki DNA przed sekwencjonowaniem. Kilka strategii wzbogacania celu zostało opracowanych od czasu pierwotnego opisu metody bezpośredniej selekcji genomowej (DGS) w 2005 roku.

Chociaż opisano wiele technik ukierunkowanego przechwytywania, tylko kilka z nich zostało rozszerzonych o przechwytywanie całych eksomów. Pierwszą strategią wzbogacania docelową, którą można było zastosować do sekwencjonowania całego egzomu, była hybrydowa metoda przechwytywania oparta na macierzy w 2007 roku, ale w ostatnich latach popularność zyskała metoda przechwytywania w roztworze.

Przechwytywanie oparte na macierzy

Przechwytywanie w rozwiązaniu
Przechwytywanie w rozwiązaniu.

Mikromacierze zawierają jednoniciowe oligonukleotydy z sekwencjami z ludzkiego genomu, aby ułożyć region zainteresowania przymocowany do powierzchni. Genomowy DNA jest ścinany w celu utworzenia dwuniciowych fragmentów. Fragmenty poddawane są naprawie końców w celu wytworzenia tępych końców i dodawane są adaptery z uniwersalnymi sekwencjami starterowymi. Te fragmenty hybrydyzują do oligonukleotydów na mikromacierzy. Niezhybrydyzowane fragmenty są wypłukiwane i pożądane fragmenty są eluowane. Fragmenty są następnie amplifikowane przy użyciu PCR .

Firma Roche NimbleGen jako pierwsza zastosowała oryginalną technologię DGS i dostosowała ją do sekwencjonowania nowej generacji. Opracowali układ Sequence Capture Human Exome 2.1M Array do przechwytywania ~180 000 kodujących egzonów. Ta metoda jest zarówno oszczędzająca czas, jak i opłacalna w porównaniu z metodami opartymi na PCR. Agilent Capture Array i porównawcza macierz do hybrydyzacji genomowej to inne metody, które można zastosować do hybrydowego wychwytywania sekwencji docelowych. Ograniczenia w tej technice obejmują konieczność posiadania drogiego sprzętu oraz stosunkowo dużej ilości DNA.

Przechwytywanie w rozwiązaniu

Aby uchwycić interesujące regiony genomu za pomocą wychwytywania w roztworze, pula niestandardowych oligonukleotydów (sond) jest syntetyzowana i hybrydyzowana w roztworze z pofragmentowaną próbką genomowego DNA. Sondy (znakowane kulkami) selektywnie hybrydyzują z interesującymi regionami genomowymi, po czym kulki (obecnie zawierające interesujące fragmenty DNA) można ściągnąć i przemyć w celu usunięcia nadmiaru materiału. Kulki są następnie usuwane, a fragmenty genomu można zsekwencjonować, umożliwiając selektywne sekwencjonowanie interesujących regionów genomu (np. eksonów).

Ta metoda została opracowana w celu ulepszenia metody wzbogacania docelowego wychwytu hybrydyzacyjnego. W wychwytywaniu roztworu (w przeciwieństwie do wychwytywania hybrydowego) występuje nadmiar sond do docelowych regionów zainteresowania w stosunku do wymaganej ilości matrycy. Optymalna wielkość docelowa wynosi około 3,5 mega zasad i zapewnia doskonałe pokrycie sekwencji regionów docelowych. Preferowana metoda zależy od kilku czynników, w tym: liczby par zasad w obszarze zainteresowania, zapotrzebowania na odczyty na celu, sprzętu w domu itp.

Krok 2: Sekwencjonowanie

Dostępnych jest wiele platform sekwencjonowania Next Generation Sequencing , opartych na klasycznych metodologiach sekwencjonowania Sangera. Inne platformy obejmują sekwencer Roche 454 i systemy Life Technologies SOLiD, Life Technologies Ion Torrent i Illumina's Illumina Genome Analyzer II (nieistniejący) oraz kolejne instrumenty z serii Illumina MiSeq, HiSeq i NovaSeq, z których wszystkie mogą być używane do masowo równoległego sekwencjonowania egzomów. Te "krótkie odczytane" systemy NGS są szczególnie dobrze przystosowane do analizy wielu stosunkowo krótkich odcinków sekwencji DNA, jakie można znaleźć w ludzkich egzonach.

Porównanie z innymi technologiami

Dostępnych jest wiele technologii, które identyfikują warianty genetyczne. Każda technologia ma zalety i wady pod względem technicznym i finansowym. Dwie takie technologie to mikromacierze i sekwencjonowanie całego genomu .

Genotypowanie na podstawie mikromacierzy

Mikromacierze wykorzystują sondy hybrydyzacyjne do testowania częstości występowania znanych sekwencji DNA, dlatego nie można ich użyć do identyfikacji nieoczekiwanych zmian genetycznych. W przeciwieństwie do tego, wysokoprzepustowe technologie sekwencjonowania stosowane w sekwencjonowaniu egzomów bezpośrednio dostarczają sekwencje nukleotydowe DNA w tysiącach testowanych loci egzonowych. Dlatego WES zajmuje się niektórymi z obecnych ograniczeń macierzy genotypowania hybrydyzacyjnego .

Chociaż sekwencjonowanie egzomów jest droższe niż technologie oparte na hybrydyzacji w przeliczeniu na próbkę, jego koszt spada ze względu na spadające koszty i zwiększoną przepustowość sekwencjonowania całego genomu .

Sekwencjonowanie całego genomu

Sekwencjonowanie egzomu jest w stanie zidentyfikować tylko te warianty, które znajdują się w regionie kodującym genów, które wpływają na funkcję białka. Nie jest w stanie zidentyfikować strukturalnych i niekodujących wariantów związanych z chorobą, które można znaleźć za pomocą innych metod, takich jak sekwencjonowanie całego genomu . Pozostaje 99% ludzkiego genomu, który nie jest objęty sekwencjonowaniem egzomu. Obecnie sekwencjonowanie całego genomu rzadko jest praktyczne w kontekście klinicznym ze względu na wysokie koszty i czas związany z sekwencjonowaniem pełnych genomów. Sekwencjonowanie egzomu umożliwia sekwencjonowanie części genomu na co najmniej 20-krotnie większej liczbie próbek w porównaniu do sekwencjonowania całego genomu przy tym samym koszcie. W przypadku translacji zidentyfikowanych rzadkich wariantów do kliniki wielkość próby i umiejętność interpretacji wyników w celu postawienia diagnozy klinicznej wskazuje, że przy obecnej wiedzy genetycznej sekwencjonowanie egzomów może być najbardziej wartościowe.

Analiza danych

Wyzwaniem jest analiza statystyczna dużej ilości danych generowanych z podejść do sekwencjonowania. Nawet poprzez sekwencjonowanie tylko egzomów osobników generowana jest duża ilość danych i informacji o sekwencji, co wymaga znacznej ilości analizy danych. Wyzwania związane z analizą tych danych obejmują zmiany w programach używanych do wyrównywania i składania odczytów sekwencji. Różne technologie sekwencjonowania mają również różne współczynniki błędów i generują różne długości odczytu, co może stanowić wyzwanie przy porównywaniu wyników z różnych platform sekwencjonowania.

Wyniki fałszywie dodatnie i fałszywie ujemne są związane z metodami resekwencjonowania genomowego i są kwestią krytyczną. Opracowano kilka strategii w celu poprawy jakości danych egzomowych, takich jak:

  • Porównanie wariantów genetycznych zidentyfikowanych między sekwencjonowaniem a genotypowaniem opartym na macierzach
  • Porównanie kodujących SNP z sekwencjonowanym całym genomem osobnikiem z zaburzeniem
  • Porównanie kodowania SNP z sekwencjonowaniem Sangera osobników HapMap

Rzadkie zaburzenia recesywne nie miałyby polimorfizmów pojedynczego nukleotydu (SNP) w publicznych bazach danych, takich jak dbSNP . Bardziej powszechne fenotypy recesywne mogą mieć warianty chorobotwórcze opisane w dbSNP. Na przykład, najczęstszy wariant mukowiscydozy ma częstość alleli około 3% w większości populacji. Wyszukiwanie takich wariantów może błędnie wykluczyć takie geny z rozważań. Geny zaburzeń recesywnych są zwykle łatwiejsze do zidentyfikowania niż zaburzeń dominujących, ponieważ geny rzadziej mają więcej niż jeden rzadki wariant niesynonimiczny. System przesiewowy powszechnych wariantów genetycznych opiera się na dbSNP, który może nie mieć dokładnych informacji o zmienności alleli. Bardziej miarodajne byłoby użycie list typowych zmienności z badanego egzomu lub osobnika zsekwencjonowanego w całym genomie. Wyzwaniem w tym podejściu jest to, że wraz ze wzrostem liczby sekwencjonowanych egzomów, dbSNP będzie również zwiększać liczbę rzadkich wariantów. Konieczne będzie opracowanie progów w celu zdefiniowania wspólnych wariantów, które prawdopodobnie nie będą związane z fenotypem choroby.

Heterogeniczność genetyczna i przynależność etniczna populacji są również głównymi ograniczeniami, ponieważ mogą zwiększać liczbę wyników fałszywie dodatnich i fałszywie ujemnych, co utrudni identyfikację genów kandydujących. Oczywiście możliwe jest zmniejszenie rygorystyczności progów w przypadku heterogeniczności i etniczności, jednak zmniejszy to również zdolność do wykrywania wariantów. Zastosowanie podejścia najpierw genotyp do identyfikacji genów kandydujących może również zaoferować rozwiązanie pozwalające przezwyciężyć te ograniczenia.

Implikacje etyczne

Nowe technologie w genomice zmieniły sposób podejścia naukowców zarówno do badań podstawowych, jak i translacyjnych. Dzięki takim podejściom, jak sekwencjonowanie egzomu, możliwe jest znaczne wzbogacenie danych generowanych z poszczególnych genomów, co wywołało szereg pytań dotyczących sposobu radzenia sobie z ogromną ilością informacji. Czy osoby biorące udział w tych badaniach powinny mieć dostęp do informacji o ich sekwencjonowaniu? Czy te informacje powinny być udostępniane firmom ubezpieczeniowym? Dane te mogą prowadzić do nieoczekiwanych wyników i komplikować przydatność kliniczną i korzyści dla pacjentów. Ten obszar genomiki nadal stanowi wyzwanie, a naukowcy zastanawiają się, jak odpowiedzieć na te pytania.

Zastosowania sekwencjonowania egzomów

Dzięki zastosowaniu sekwencjonowania egzomu, badania o stałych kosztach mogą sekwencjonować próbki na znacznie większą głębokość niż można by osiągnąć przy użyciu sekwencjonowania całego genomu. Ta dodatkowa głębia sprawia, że ​​sekwencjonowanie egzomów jest odpowiednie dla kilku aplikacji, które wymagają niezawodnych wywołań wariantów.

Rzadkie mapowanie wariantów w zaburzeniach złożonych

Aktualne badania asocjacyjne koncentrowały się na wspólnej zmienności w obrębie genomu, ponieważ są one najłatwiejsze do zidentyfikowania za pomocą naszych obecnych testów. Jednak w badaniach genów kandydujących stwierdzono, że warianty powodujące chorobę o dużym wpływie leżą w egzomach, a ze względu na negatywną selekcję znajdują się w znacznie niższej częstości alleli i mogą pozostać nieopisane w obecnych standardowych testach genotypowania. Sekwencjonowanie całego genomu jest potencjalną metodą oznaczania nowego wariantu w całym genomie. Jednak w przypadku złożonych zaburzeń (takich jak autyzm) uważa się, że duża liczba genów jest związana z ryzykiem choroby. Ta heterogeniczność podstawowego ryzyka oznacza, że ​​do odkrycia genów wymagane są bardzo duże próbki, a zatem sekwencjonowanie całego genomu nie jest szczególnie opłacalne. Ten problem wielkości próbki został złagodzony dzięki opracowaniu nowatorskich zaawansowanych metod analitycznych, które skutecznie mapują geny chorobowe, mimo że mutacje genetyczne są rzadkie na poziomie wariantów. Ponadto znacznie szerzej zbadano warianty w regionach kodujących, a ich implikacje funkcjonalne są znacznie łatwiejsze do uzyskania, dzięki czemu praktyczne zastosowania wariantów w docelowym regionie egzomu są łatwiej dostępne.

Sekwencjonowanie egzomów w odkrywaniu rzadkich wariantów genów pozostaje bardzo aktywnym i ciągłym obszarem badań: do tej pory odkryto niewiele powiązanych genów, ale istnieje coraz więcej dowodów na to, że znaczne obciążenie ryzykiem jest obserwowane we wszystkich zestawach genów.

Odkrycie zaburzeń Mendla

W przypadku zaburzeń Mendlowskich o dużym wpływie dotychczasowe odkrycia sugerują, że jeden lub bardzo mała liczba wariantów w obrębie genów kodujących leży u podstaw całego schorzenia. Ze względu na ciężkość tych zaburzeń uważa się, że kilka wariantów przyczynowych jest niezwykle rzadkich lub nowych w populacji i może zostać pominiętych w każdym standardowym teście genotypowania. Sekwencjonowanie egzomu zapewnia wywołania wariantów o wysokim pokryciu w regionach kodowania, które są potrzebne do oddzielenia prawdziwych wariantów od szumu. Udany model odkrycia genu Mendla obejmuje odkrycie wariantów de novo przy użyciu sekwencjonowania trio, w którym rodzice i probant są genotypowani.

Studium przypadku

W badaniu opublikowanym we wrześniu 2009 r. omówiono eksperyment sprawdzający koncepcję, aby ustalić, czy możliwe jest zidentyfikowanie przyczynowych wariantów genetycznych za pomocą sekwencjonowania egzomu. Zsekwencjonowali cztery osoby z zespołem Freemana-Sheldona (FSS) (OMIM 193700), rzadkim zaburzeniem autosomalnym dominującym, o którym wiadomo, że jest spowodowane mutacją w genie MYH3 . Osiem osobników HapMap zostało również zsekwencjonowanych w celu usunięcia powszechnych wariantów w celu zidentyfikowania genu przyczynowego FSS. Po wykluczeniu powszechnych wariantów autorzy byli w stanie zidentyfikować MYH3 , co potwierdza, że ​​sekwencjonowanie egzomów może być wykorzystywane do identyfikacji wariantów przyczynowych rzadkich zaburzeń. Było to pierwsze zgłoszone badanie, w którym wykorzystano sekwencjonowanie egzomów jako podejście do identyfikacji nieznanego genu przyczynowego rzadkiego zaburzenia mendla.

Następnie inna grupa zgłosiła pomyślną diagnozę kliniczną u pacjenta z zespołem Barttera pochodzenia tureckiego. Zespół Barttera jest chorobą wyniszczającą nerki. Sekwencjonowanie egzomu ujawniło nieoczekiwaną, dobrze zachowaną mutację recesywną w genie o nazwie SLC26A3, która jest związana z wrodzoną biegunką chlorkową (CLD). Ta diagnoza molekularna CLD została potwierdzona przez kierującego klinicystę. Ten przykład dowiódł koncepcji zastosowania sekwencjonowania całego egzomu jako narzędzia klinicznego w ocenie pacjentów z nierozpoznanymi chorobami genetycznymi. Niniejszy raport jest uważany za pierwsze zastosowanie technologii sekwencjonowania nowej generacji do diagnostyki molekularnej pacjenta.

Drugi raport został przeprowadzony na temat sekwencjonowania egzomu osób z zaburzeniem mendlowskim znanym jako zespół Millera (MIM#263750), rzadkim zaburzeniem dziedziczenia autosomalnego recesywnego . Przebadano dwoje rodzeństwa i dwie niespokrewnione osoby z zespołem Millera. Przyjrzeli się wariantom potencjalnie chorobotwórczym, takim jak mutacje niesynonimiczne, miejsca akceptorowe i donorowe splicingu oraz krótkie insercje lub delecje kodujące. Ponieważ zespół Millera jest rzadkim zaburzeniem, oczekuje się, że wariant przyczynowy nie został wcześniej zidentyfikowany. Wcześniejsze badania sekwencjonowania egzomów powszechnych polimorfizmów pojedynczego nukleotydu (SNP) w publicznych bazach danych SNP zostały wykorzystane do dalszego wykluczenia genów kandydujących. Po wykluczeniu tych genów autorzy odkryli mutacje w DHODH, które były wspólne dla osób z zespołem Millera. Każda osoba z zespołem Millera była złożoną heterozygotą dla mutacji DHODH, które zostały odziedziczone, ponieważ każdy rodzic chorego osobnika okazał się nosicielem.

Po raz pierwszy wykazano, że sekwencjonowanie egzomu pozwoliło zidentyfikować nowy gen odpowiedzialny za rzadką chorobę mendlowską. To ekscytujące odkrycie pokazuje, że sekwencjonowanie egzomu może potencjalnie zlokalizować geny sprawcze w złożonych chorobach, co wcześniej nie było możliwe z powodu ograniczeń tradycyjnych metod. Ukierunkowane wychwytywanie i masowo równoległe sekwencjonowanie to opłacalna, powtarzalna i solidna strategia o wysokiej czułości i swoistości do wykrywania wariantów powodujących zmiany w kodowaniu białek w poszczególnych ludzkich genomach.

Diagnostyka kliniczna

Sekwencjonowanie egzomów może służyć do diagnozowania genetycznej przyczyny choroby u pacjenta. Identyfikacja mutacji genów leżących u podstaw choroby może mieć poważne implikacje dla metod diagnostycznych i terapeutycznych, może prowadzić do przewidywania historii naturalnej choroby i umożliwia testowanie zagrożonych członków rodziny. Istnieje wiele czynników, które sprawiają, że sekwencjonowanie egzomów jest lepsze niż analiza pojedynczego genu, w tym zdolność do identyfikacji mutacji w genach, które nie zostały przetestowane z powodu nietypowej prezentacji klinicznej lub zdolność do identyfikacji przypadków klinicznych, w których mutacje różnych genów przyczyniają się do różnych fenotypów w ten sam pacjent.

Po zdiagnozowaniu genetycznej przyczyny choroby informacje te mogą pomóc w wyborze odpowiedniego leczenia. Po raz pierwszy strategia ta została z powodzeniem zastosowana w klinice w leczeniu niemowlęcia z nieswoistym zapaleniem jelit. Wcześniej stosowano szereg konwencjonalnych metod diagnostycznych, ale wyniki nie były w stanie wyjaśnić objawów niemowlęcia. Analiza danych z sekwencjonowania egzomu pozwoliła zidentyfikować mutację w genie XIAP . Znajomość funkcji tego genu kierowała leczeniem niemowlęcia, prowadząc do przeszczepu szpiku kostnego, który wyleczył dziecko z choroby.

Naukowcy wykorzystali sekwencjonowanie egzomów do identyfikacji podstawowej mutacji u pacjenta z zespołem Barttera i wrodzoną biegunką chlorkową. Grupa Bilgulara wykorzystała również sekwencjonowanie egzomu i zidentyfikowała podstawową mutację u pacjenta z poważnymi wadami rozwojowymi mózgu, stwierdzając, że „[Te odkrycia] podkreślają zastosowanie sekwencjonowania całego egzomu do identyfikacji loci chorobowych w warunkach, w których tradycyjne metody okazały się trudne… Nasze wyniki pokazują, że technologia ta będzie szczególnie cenna dla odkrywania genów w tych warunkach, w których mapowanie zostało utrudnione przez heterogeniczność locus i niepewność co do granic klasyfikacji diagnostycznej, co wskazuje na świetlaną przyszłość dla jej szerokiego zastosowania w medycynie” .

Naukowcy z Uniwersytetu w Kapsztadzie w RPA wykorzystali sekwencjonowanie egzomów, aby odkryć genetyczną mutację CDH2 jako podstawową przyczynę zaburzenia genetycznego znanego jako arytmogenna kardiomiopatia prawej komory (ARVC), która zwiększa ryzyko chorób serca i zatrzymania akcji serca. [1]

Sekwencjonowanie egzomu bezpośrednio do konsumenta

Wiele firm zaoferowało konsumentom sekwencjonowanie egzomów.

Knome była pierwszą firmą, która zaoferowała konsumentom usługi sekwencjonowania egzomów za kilka tysięcy dolarów. Później 23andMe przeprowadziło pilotażowy program WES, który został ogłoszony we wrześniu 2011 r. i został przerwany w 2012 r. Konsumenci mogli uzyskać dane exomowe za cenę 999 USD. Firma dostarczyła surowe dane i nie oferowała analizy.

W listopadzie 2012 r. DNADTC, oddział Gene by Gene, zaczął oferować egzomy z 80-krotnym pokryciem i wstępną ceną 695 USD. Ta cena za witrynę internetową DNADTC wynosi obecnie 895 USD. W październiku 2013 r. BGI ogłosiło promocję osobistego sekwencjonowania całego egzomu z 50-krotnym pokryciem za 499 USD. W czerwcu 2016 r. Genos był w stanie osiągnąć jeszcze niższą cenę 399 USD dzięki certyfikowanemu przez CLIA eksomowi 75X zsekwencjonowanemu ze śliny.

Zobacz też

Bibliografia

Zewnętrzne linki