Informacija

Statistikas sutriko dėl tikslaus SNP duomenų tipo

Statistikas sutriko dėl tikslaus SNP duomenų tipo


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Esu iš statistinės (ne biologinės) aplinkos ir esu labai sutrikęs dėl to, kas tiksliai yra „duomenys“, susiję su SNP. Toliau paaiškinsiu dalykus kiek galėdamas – pataisykite mane, jei kuris nors punktas yra neteisingas ar kitaip neaiškus. Tarkime, kad dirbame su žmonėmis, nes toliau nurodyti dalykai keisis priklausomai nuo rūšies. (Tarkime, kad visi dominantys atvejai yra dvialeliniai.)

Kai lokusas turi alelį bent vienoje chromosomoje, matavimas AA, Aa arba aa vadinamas SNP (tariama „snip“). Todėl, naudojant statistinę kalbą, SNP yra trijų lygių veiksniai – tai duomenys, susiję su SNP. Kaip minėta anksčiau, jei faktorius turi 1 lygį (ty tai tik aa arba tik AA), tai nėra SNP.

Kartais žmonėms atrodo, kad žmonės sako, kad SNP iš tikrųjų yra tik vienas alelis (taigi, dviejų lygių faktorius, a arba A). Kaip tai įmanoma? Ar kartais žmonės matuoja tik vieną alelį, o ne abu, kad gautų genotipą?


Manau, kad ankstesni atsakymai suteikia daug vertingos ir svarbios informacijos, bet leiskite pridėti papildomos perspektyvos:

  • Kaip minėta, SNP yra a vieno nukleotido polimorfizmas, o žymėjimas AA, Aa, aa ir tt gali reikšti daugybę kitų mutacijų tipų: pvz., tai gali būti ištisi genai, kurie įvairiose vietose skiriasi. Kitas dažnas mutacijų tipas yra įterpimai/delecijos, kai vienam genui gali trūkti ištisų segmentų (o ne turėti skirtingus nukleotidus).
  • SNP naudojami tam tikrose situacijose, kur genomo pokytis yra nereikšmingas: pvz., gydant labai konservuojantį žmogaus genomą arba gydant kintamą genomą trumpą laiką, kai įvyksta tik keli pokyčiai. Šiuo atveju kaip atskaitą imame dažniausiai pasitaikantį/pradinį genomą, o nukrypimus nuo jo apibūdiname kaip SNP („snips“). Tai ne visada įmanoma, pvz., kai yra keli aleliai (vienas nukleotidas gali būti keturių būsenų: A, C, G, T ir į visa tai gali tekti atsižvelgti, pvz., analizuojant virusų evoliuciją ).
  • Priklausomai nuo problemos, galbūt norėsite aptarti organizmo populiacijos genetiką pagal genotipus arba alelius – net jei vienas organizmas turi kelis alelius (pvz., dvi kopijas diploidiniame organizme). AA, Aa, aa yra genotipai, o A, a yra aleliai. SNP yra alelio, o ne genotipo pokytis. (Tačiau pripažįstu, kad biologinė kalba dažnai būna netiksli.)

SNP nėra konkretus duomenų tipas, o veikiau biologinis reiškinys. Santrumpa „Vieno nukleotido polimorfizmas“ reiškia, kad vienoje raidėje tam tikroje DNR sekos vietoje yra kintamumas (tarp individų). Nuo kalbėtojo priklauso, kaip jis nusprendžia apibūdinti kintamumą; ar jie nusprendžia sutelkti dėmesį į galimas sekas ir pasakyti, pavyzdžiui, „šioje padėtyje yra tik A arba T“, ar sutelkia dėmesį į galimus žmogaus genotipus ir išdėsto visas kombinacijas (AA, AT, TT).

Tai, kas laikoma SNP duomenimis, visiškai priklauso nuo tyrimo klausimo, naudojamo organizmo (diploido / haploido / poliploido) ir eksperimentinio plano.

Straipsnyje, kurį nuorodote savo komentare, naudojamos avižos linijos o ne individai iš antrinės populiacijos. Avižos, panašios į arabidopsis, natūraliai yra labai savaime poliruojančios, todėl sukurti labai homozigotines inbredines linijas yra gana lengva. Šiuo atveju tikslinga tyrimams kiekvienoje eilutėje tikėtis tik AA arba aa genotipų.

Redaguoti: Kadangi prašėte daugiau pavyzdžių, kai tyrėjas pasirenka sutelkti dėmesį į alelius, o ne į genotipus. Daugelis SNP genotipų pasiskirstymo atitinka Hardy-Weinberg lygtis. Jei taip yra, genotipų dažnis gali būti apskaičiuotas pagal alelių dažnį populiacijoje. Tyrėjas gali paklausti: "Ar alelio dažnis skiriasi populiacijoje / 1 grupėje nuo populiacijos / 2 grupės?" Jie renka duomenis iš 1 grupės (AA, AA, Aa, Aa, aa) ir 2 grupės (Aa, Aa, aa, aa, aa) asmenų. Jie nusprendžia kiekvieną alelį traktuoti kaip nepriklausomą matavimą (nepriklauso nuo individo, iš kurio jis kilęs) ir apklausia duomenis: 1 grupė (AAAAAAaaaa), 2 grupė (AAaaaaaaaaa), tada jie atlieka paprastą dvejetainį testą, kad atsakytų į savo klausimą.

Pastaba: Net jei Hardy-Weinberg pusiausvyra nesilaikoma, klausimai apie alelių dažnį vis tiek yra galiojantys biologiniai klausimai (su šiek tiek kitokiu naudojimu / aiškinimu).


Leiskite man pateikti jums voko skaičiavimo pabaigą. Žmogaus genomo dydis yra 3 milijardai bazinių porų (BP). Žmogaus genome yra apie 30 tūkstančių genų. Todėl geno dydis būtų apie 100 tūkst. BP (DNR turi nekoduojančių regionų, reguliavimo sričių ir tt Taip pat geno dydis svyruoja nuo kelių šimtų BP iki daugiau nei 2 mln.). Paprastumo dėlei mes gali laikytis šio skaičiavimo). Kita vertus, žmogaus genome yra 5 milijonai SNP. Todėl SNP būtų kas 600 BP.

Taigi, galime tvirtai pasakyti, kad yra genų, turinčių daugiau nei vieną SNP. Mano pasiūlymas būtų toks, kaip nurodė @BagiM, nepainiokite mikroskopinių sąvokų su makroskopinėmis.


Kaip minėta anksčiau, jei faktorius turi 1 lygį (ty tai tik aa arba tik AA), tai nėra SNP.

Jei jūsų populiacijoje ši bazė skiriasi, tai yra SNP, net jei nežiūrite į heterozigotą.

Bet kokiu atveju, jei kalbate apie SNP, žmonės paprastai vadins jį pagrindu, o ne jo generuojamo alelio pavadinimu. (Ir iš tikrųjų daug laiko aleliai nėra įvardijami taip paprastai, kaip A ir a. Šis žymėjimas yra naudingas sprendžiant tobulai Mendelio vidurinės mokyklos genetikos namų darbų problemas, tačiau realiame pasaulyje dauguma duomenų neatitinka šios paradigmos.


Žmogaus A-I RNR redagavimo SNP lokusai yra praturtinti GWAS signalais, skirtais autoimuninėms ligoms ir balansuojant atranką

Adenozino-inozino (A-to-I) RNR redagavimas vaidina svarbų vaidmenį įvairindamas transkriptą ir užkertant kelią endogeninės dsRNR MDA5 jutimui kaip savaime. Iki šiol nedaugelis tyrimų ištyrė populiacijos genominius A-to-I redagavimo parašus, nes trūksta redagavimo svetainių, kurios sutampa su SNP.

Rezultatai

Šiame tyrime taikėme dujotiekį, kad galėtume patikimai identifikuoti SNP redagavimo vietas iš populiacijos transkriptominių duomenų ir kombinuotų funkcinių genomikos, GWAS ir populiacijos genomikos metodų, kad ištirtume A-to-I redagavimo funkciją ir evoliuciją. Pastebime, kad redaguojant SNP yra per daug atstovaujamas G alelis, kuris yra lygiavertis redaguotam I. Funkciniu požiūriu A / G redagavimo SNP yra labai praturtinti autoimuninių ir su imunitetu susijusių ligų GWAS signalais. Evoliuciškai išvestiniai A / G redaguojančių SNP alelių dažnių pasiskirstymai tiek A, tiek G aleliams, nes protėvių aleliai yra nukreipti į vidutinio dažnio alelius, palyginti su neutraliais SNP, o tai yra balansavimo atrankos požymis, o tai rodo, kad tiek A, tiek G aleliai yra funkciškai svarbūs. Balansuojančios atrankos signalą patvirtina daugybė papildomų populiacijos genominių tyrimų.

Išvados

Mes atskleidėme paslėptą A-I RNR redaguojančių SNP lokusų sluoksnį, kaip bendrą balansavimo atrankos tikslą, ir siūlome, kad tokių redagavimo SNP variacijų palaikymas bent iš dalies galėtų būti susijęs su apribojimais, susijusiais su pusiausvyros tarp imuninės sistemos funkcija. aktyvumas ir savęs tolerancija.


Figūros

Visai neseniai atliktos teigiamos atrankos signalų identifikavimas suteikia informacijos apie šiuolaikinio žmogaus prisitaikymą prie vietinių sąlygų. Čia pranešame apie genomo masto signalų nuskaitymą, kai buvo gauta labai neseniai gauta teigiama atranka variantų, kurie dar nepasiekė fiksacijos, naudai. Aprašome naują analitinį metodą, skirtą vieno nukleotido polimorfizmo (SNP) duomenims nuskaityti naujausio atrankos signalams, ir pritaikome jį duomenims iš Tarptautinio HapMap projekto. Visose trijose žemynų grupėse randame plačiai paplitusių pastarojo meto teigiamos atrankos signalų. Dauguma signalų yra būdingi regionui, nors didelis perteklius dalijamas grupėse. Skirtingai nuo kai kurių ankstesnių žemos skiriamosios gebos tyrimų, kuriuose buvo teigiama, kad pastaruoju metu į pietus nuo Sacharos esančiose afrikiečių atranka buvo menka, mes pastebime, kad pagal kai kurias priemones stipriausi atrankos signalai yra iš jorubų populiacijos. Galiausiai, kadangi šie signalai rodo, kad egzistuoja genetiniai variantai, kurių tinkamumas iš esmės skiriasi, jie turi nurodyti lokusus, kurie yra reikšmingų fenotipinių variacijų šaltinis. Nors atitinkami fenotipai paprastai nėra žinomi, tokie lokusai turėtų būti ypač svarbūs nustatant sudėtingų bruožų tyrimus. Šiuo tikslu sukūrėme SNP rinkinį, kuris gali būti naudojamas žymėti stipriausius ∼ 250 pastarojo meto atrankos signalų kiekvienoje populiacijoje.

Citata: Voight BF, Kudaravalli S, Wen X, Pritchard JK (2006) Naujausios teigiamos atrankos žmogaus genome žemėlapis. PLoS Biol 4(3): e72. https://doi.org/10.1371/journal.pbio.0040072

Akademinis redaktorius: Laurence'as Hurstas, Bato universitetas, Jungtinė Karalystė

Gauta: 2005 m. lapkričio 10 d Priimta: 2006 m. sausio 10 d Paskelbta: 2006 m. kovo 7 d

Autorių teisės: © 2006 Voight ir kt. Tai yra atviros prieigos straipsnis, platinamas pagal Creative Commons Attribution License sąlygas, leidžiančias neribotai naudoti, platinti ir dauginti bet kokioje laikmenoje, jei nurodomas originalus autorius ir šaltinis.

Finansavimas: Mūsų projektą parėmė RO1 HG002772-1. BFV taip pat gavo dalinę paramą iš RO1 DK55889 Nancy Cox.

Konkuruojantys interesai: Autoriai pareiškė, kad nėra konkuruojančių interesų.

Santrumpos: ASN, Rytų Azijos (-ių) CEU, Šiaurės ir Vakarų Europos (-ių) EHH, išplėstinis haplotipo homozigotiškumas iHH, integruotas EHH iHS, integruotas haplotipo balas SNP, vieno nukleotido polimorfizmas YRI, jorubai

Pataisos pastaba: dėl rinkimo klaidos simbolis „σ“ buvo neteisingai rodomas kaip „s“ 1, 2 ir 3 paveikslų legendose. Ištaisyta 2006-03-06


SNiPloid: įrankis, skirtas naudoti didelio našumo SNP duomenis, gautus iš RNA-Seq allopoliploidinėse rūšyse

Didelio našumo sekos nustatymas yra įprastas būdas atrasti SNP variantus, ypač augalų rūšyse. Tačiau prognozuojamų SNP analizės metodai dažnai optimizuojami diploidinėms augalų rūšims, o daugelis pasėlių rūšių yra alopoliploidai ir jungia susijusius, bet skirtingus subgenomus (homoeologinius chromosomų rinkinius). Sukūrėme programinės įrangos įrankį SNiPloid, kuris išnaudoja ir interpretuoja numanomus SNP alopoliploidijos kontekste, lygindamas SNP iš alopoliploido su gautais iš šiuolaikinių diploidinių pirmtakų. SNiPloid gali palyginti SNP, gautus iš mėginio, kad įvertintų subgenomo indėlį į transkriptą arba SNP, gautus iš dviejų poliploidinių prisijungimų, kad būtų galima ieškoti SNP skirtumų.

1. Įvadas

Didelio našumo sekos nustatymo technologijų atsiradimas keičia mūsų gebėjimą atrasti ir panaudoti vieno nukleotido polimorfizmus (SNP). Poliploidija būdinga daugeliui gyvūnų ir augalų, tačiau ji ypač paplitusi tarp žydinčių augalų, įskaitant daugelį pagrindinių kultūrų. Tačiau dauguma metodų, naudojamų prognozuojamiems SNP atrasti ir patvirtinti, yra optimizuoti diploidinėms rūšims, todėl dar reikia išspręsti specifinius su poliploidija susijusius iššūkius.

Daugelis poliploidinių augalų, įskaitant kavą (Arabikos kava), kvieciai (Triticum durum Desf.), medvilnė (Gossypium hirsutum L.) ir žemės riešutų (Arachis hypogaea L.) yra alopoliploidai ir juose yra du ar daugiau skirtingų genomų (homoeologinių chromosomų) po giminingų diploidinių rūšių tarpusavio hibridizacijos ir chromosomų padvigubėjimo. Dėl to alopoliploidiniai genomai turi skirtingas daugumos savo genų kopijas, o genomo susiliejimas ir padvigubinimas sukelia daugybę genomo efektų, įskaitant šių pasikartojančių genų ("homoeologų") ekspresijos pokyčius. Alopoliploido atveju chromosomos, gautos iš skirtingų tėvų rūšių, nesusiporuoja mejozės metu, o genų kopijos, „homoeoaleliai“ arba „homoeologai“, gautos iš skirtingų tėvų rūšių, neturi alelinių ryšių, todėl jas galima atskirti nuo tikrųjų alelių. Kitaip tariant, sekų variacijos tarp subgenomų egzistuoja kartu su aleliniais pokyčiais subgenomuose. Tikslus homoeoSNP (ty polimorfizmų, atsiradusių tik viename iš subgenomų) identifikavimas tetraploidinės sekos duomenyse yra iššūkis dėl homoeologų sujungimo. Bendrame surinkime vieno nukleotido skirtumai tarp dviejų subgenomų gali būti supainioti su SNP viename lokuse.

Transkriptų sekos nustatymas naudojant didelio našumo sekos nustatymo metodus (RNA-Seq) gali suteikti naujų įžvalgų apie poliploidinę biologiją [1]. Paprastai skaitymai iš tam tikro alopoliploido yra suderinami su etaloniniu transkriptu. Tada, jei galima paimti diploidinių progenitorinių rūšių alelių sekas, galima daryti išvadą apie identifikuotų SNP genomo kilmę ir įvertinti homoeologinių genų indėlį į bendrą transkripto lygį.

Čia pristatome naują įrankį SNiPloid, kuris gali išspręsti daugelį aspektų, susijusių su SNP analize alopoliploidijos kontekste. Remdamasis homoeologų sambūriu, SNiPloid palygina arba numanomus SNP, aptiktus iš alopoliploido, su gautais jo tėvų genomuose, arba numanomus SNP, gautus iš dviejų alopoliploidų prisijungimų, kad ieškotų polimorfizmo. SNiPloid žiniatinklio serverį ir šaltinio kodą (galima atsisiųsti pagal viešąją CeCILL licenciją) galima pasiekti adresu http://sniplay.cirad.fr/cgi-bin/sniploid.cgi.

2. Metodai

2.1. Išankstinis duomenų apdorojimas

Prieš interpretuojant RNA-Seq duomenų rezultatus naudojant SNiPloid, būtinas išankstinis duomenų apdorojimas. Biologai gali iš anksto apdoroti savo duomenis naudodami viešąjį Galaxy serverį (https://main.g2.bx.psu.edu/), kaip aprašyta 1 paveiksle.


Išankstinis duomenų apdorojimas. Prieš paleidžiant SNiPloid, kiekvienas atskiras mėginys turi būti iš anksto apdorotas, paeiliui vykdant atvaizdavimo derinimą ir SNP iškvietimą.

SNiPloid daro prielaidą, kad trumpo nuskaitymo duomenų rinkiniai (ty pavyzdžiai), gauti iš unikalaus vieno genotipo arba skirtingų priedų (diploidų ar poliploidų), yra atskirai sulygiuoti su viena diploidine transkripto nuoroda, atitinkančia vieną iš tėvų diploidų, naudojant tam skirtą kartografavimo programinę įrangą, pvz., BWA [2]. , Muilas [3] arba Bowtie [4].

Žemėlapių derinimas yra pagrindinis išankstinio duomenų apdorojimo žingsnis, o kartografavimo parametrus reikia koreguoti ir optimizuoti, kad jie geriausiai atitiktų vieną diploidinį genomą, naudojamą kaip atskaitos taškas. Tiesą sakant, kadangi pamatinis diploidinis transkriptas yra glaudžiau susijęs su vienu iš dviejų tetraploido subgenomų, jis gali turėti šalutinį poveikį kartografavimo efektyvumui ir netiesiogiai sukelti paklaidas SNP interpretacijoje, ypač analizuojant santykinę homoeologinio geno ekspresiją. subgenomų indėliu į bendrą genų ekspresiją.

„SNiPloid“ programa naudoja „Variant Call Format“ (VCF), kuri išvardija SNP variacijas ir priskiria alelius kiekvienam sekvenuotam mėginiui, palygindama su etalonine seka [5]. VCF formatas dabar yra plačiai pripažintas ir yra daugelio SNP skambinimo programinės įrangos standartinio formato išvestis. Šiuo požiūriu siūlome naudoti UnifiedGenotyper modulis GATK įrankių rinkinyje [6], skirtas SNP atradimui. Antrasis įvesties tipas, kurio reikalauja SNiPloid, atitinka aprėpties gylio failą, kurį išveda Dengimo gylis GATK modulis. Pasirinktinai, SNP atradimas ir vėlesnė SNiPloid analizė gali būti patobulinta paleidus GATK ReadBackedPhasing Naudingumas nustatyti galimas asociacijas tarp alelių ir gamybos fazių.

2.2. SNiPloid Utility

SNiPloid programinės įrangos įvestis susideda iš dviejų skirtingų GATK išvesčių kiekvienam pavyzdžiui: (i) VCF failas, kuriame išvardijami galimi SNP, ir (ii) aprėpties gylio failas (1 pav.). Kiekvienam pavyzdžiui vartotojas gali nustatyti mažiausią gylio aprėptį, reikalingą išvesties statistikos pozicijai įvertinti, ir minimalų mažųjų alelių dažnį (MAF), reikalingą, kad padėtis būtų laikoma variantu.

SNiPloid susideda iš trijų pagrindinių etapų (2 pav. (a)). Pirmąjį programos veiksmą sudaro regionų, atitinkančių minimalų kiekvieno mėginio aprėpties gylio slenkstį (kuriuo anksčiau nustatė vartotojas), išskyrimas, o tada – tarp mėginių sutampančių regionų nustatymas. Tolesnė analizė apsiribos šiais regionais, kad būtų galima palyginti variantus. Dėl to, jei numanomi SNP pakankamai aprėpia alopoliploidą, bet ne diploidą, arba abipusiai, padėtis nebus apdorojama.


a)
b)
a)
b) a) SNiPloid procedūra. Kiekvienai diploidinio genomo G2 etaloninei sekai arba genui SNiPloid išskiria intervalus, atitinkančius minimalų kiekvieno mėginio aprėpties gylio slenkstį (1a), ir nustato sutampančius intervalus tarp mėginių (1b). Tada jis išskiria numanomus SNP iš abiejų mėginių šiuose apibrėžtuose bendruose regionuose (2) ir palygina pastebėtus skirtumus tarp mėginių, kad galėtų interpretuoti situaciją (3). (b) Filogenetiniai kontekstai poliploidijos genome ir SNP kategorijų priskyrimas.

Antrame žingsnyje taip pat kiekvienam mėginiui SNiPloid ištraukia alelius iš VCF failo SNP pozicijoms apibrėžtuose bendruose regionuose. Trečiame etape lyginami tarp imčių pastebėti skirtumai ir interpretuojama situacija.

Naudojant pagrindines funkcijas (“Poliploidas prieš tėvų diploidą“), SNiPloid siūlo galimybę palyginti, interpretuoti ir sugrupuoti SNP. Remdamasis homoeologų sambūriu, SNiPloid gali daryti išvadą apie SNP genomo kilmę ir atskirti tarpspecifinius SNP ir homoeoSNP (arba genomo specifinį SNP = HSV) [7], palygindamas aptiktus SNP alopoliploiduose su atitinkamais nukleotidais abiejuose šiuolaikiniuose tėvų diploidiniuose genomuose. . Taigi SNiPloid klasifikuoja SNP į skirtingas kategorijas, iškeldamas hipotezes evoliucijos modelius taip (2 pav. b). (i) 1 ir 2 modeliai atitinka tarpspecifinius SNP ir yra priskiriami, jei alelis yra būdingas vienam iš tėvų genomų. Mutacija įvyko po poliploidizacijos įvykio (pvz., diploid1 A/A, diploid2 G/G ir tetraploid G/G). (ii) 5 modelis atitinka numanomus homoeoSNP, nes tie patys pokyčiai pastebimi tetraploiduose ir tarp tėvų genomų (pvz., diploidas1 A/A, diploid2 G/G ir tetraploidas A/G). Pagal šį modelį SNiPloid nustato, kuriame subgenome yra homoeoalelis, naudodamas diploidinės sekos alelius. Antrame etape, nuskaitant ir derinant VCF formatu pateiktų etaloninių ir alternatyvių alelių alelinius gylius, jis gali įvertinti subgenomo indėlį į kiekvieno homoeologinio geno transkriptą. (iii) 3 ir 4 modeliai priskiriami, kai tetraploido pastebėta variacija nenustatyta tarp tėvų genomų (pvz., diploidas1 A/A, diploid2 A/A ir tetraploidas A/G). Mutacija galėjo įvykti viename iš alotetraploido subgenomų po poliploidizacijos įvykio. Naudojant alotetraploido kartografavimo iš dviejų subgenomų skaitymų mišinį, 3 arba 4 modelis negali būti priskirtas be informacijos apie haplotipą, todėl priskiriamas modelis „3 arba 4“. Be to, SNiPloid gali pasinaudoti fazavimo informacija, įtraukta į VCF failą, gautą iš alotetraploido, kad būtų galima nustatyti alelio kilmę ir atskirti hipotetinį evoliucijos modelį 3 ar 4. Iš tiesų, VCF formatas numato alelio fazavimo informacijos kodavimą ( alelių poros, nurodytos 0∣1, o ne 0/1, jei fazuotos su ankstesniu polimorfizmu), kad būtų apibrėžti haplotipo blokai. Taigi, jei pateikiama VCF, fazavimo informacija gali nurodyti galimas sąsajas su 5 SNP modeliu, kurio subgenomo kilmė yra žinoma, ir taip atskirti 3 ir 4 modelius. Iš esmės šis procesas, pagrįstas haplotipu, leidžia nustatyti spėjamus subgenomui specifinius SNP. .

3. Nauda

3.1. Žiniatinklio programa

„SNiPloid“ yra „South Green“ bioinformatikos platformos (http://southgreen.cirad.fr) komponentas ir pasiekiamas adresu http://sniplay.cirad.fr/cgi-bin/sniploid.cgi kaip specifinė „SNiPlay“ programos priemonė. [8] alopoliploidinių rūšių analizei.

Arba SNiPloid galima atsisiųsti kaip Galaxy projekto [9], atvirojo kodo žiniatinklio skaičiavimo sistemą, kuri leidžia lengvai įtraukti įvairius įrankius, komponentą. Atsisiuntę šį paketą taip pat galima paleisti priemonę komandų eilute, tai reiškia, kad vartotojai gali valdyti didesnius įvesties duomenų rinkinius.

3.2. SNiPloid išėjimai

Žiniatinklio programa leidžia eksportuoti išsamų klasifikuotų SNP sąrašą lentelės formatu. Proceso pabaigoje programa apibendrina analizę, skaičiuodama skirtingas SNP klases kiekvienam etaloninio duomenų rinkinio genui / kontigui ir pateikdama rezultatus dinaminėje rūšiuojamoje lentelėje (3 (a) pav.), kad vartotojai galėtų lengvai klasifikuoti. ir gauti dominančias SNP klases. Genų, turinčių bent vieną SNP 5 klasę, vidutinis santykis, kad būtų gautas bendras geno subgenomo įnašo į transkriptą įvertinimas.


SNiPloid išėjimai. (a) SNiPloid sukuria HTML išvestis, rodančias iš anksto nustatytų SNP kategorijų skaičių ir apytikslį subgenomo indėlio santykį su kiekvienos etaloninės sekos transkriptu. (b) SNiPloid taip pat gali sukurti grafinį vaizdą, rodantį bendrą SNP kategorijų ir subgenomų indėlių pasiskirstymą išilgai chromosomų.

Be to, kai siekiama apskaičiuoti bendrąją statistiką arba SNP dažnius išilgai transkripto, apie SNP kategorijų skaičiavimą galima pranešti pozicijų, į kurias buvo atsižvelgta atliekant analizę, skaičių, ty pozicijas, kurios atitiko minimalų aprėpties gylio slenkstį. apibrėžta vartotojo.

3.3. Dviejų pavyzdžių palyginimas

Iš esmės antrasis variantas "Poliploidas prieš poliploidą“ programa leidžia greitai atskirti ir suskaičiuoti konkrečius ir bendrinamus SNP tarp dviejų mėginių. Palyginimas gali būti atliekamas trimis skirtingais lygmenimis: arba tarp dviejų mėginių, gautų iš vieno poliploidinio prisijungimo, arba tarp dviejų poliploidinių prisijungimų, arba apskritai tarp dviejų rūšių. Naudojant šią funkciją, gali atsirasti naujų originalių metodų, pagrįstų diferenciniu SNP, tiriant poliploidų genomo struktūrą arba subgenomo indėlį į genų ekspresiją.

3.4. SNiPloid žemėlapių peržiūros programa

Galiausiai, SNiPloid apima peržiūros priemonę, leidžiančią grafiškai apžvelgti SNP kategorijų pasiskirstymą ir subgenomo indėlį išilgai chromosomų (3 paveikslas (b)).

Ši funkcija gali būti taikoma tik toms rūšims, kurioms yra prieinama visa ir visiškai anotuota etaloninė genomo seka ir kurioms reikalinga struktūrinė genomo anotacija bendrųjų savybių formatu (GFF) kaip papildoma įvestis, pateikiant peržiūros programai genų modelių koordinates, naudojamus kaip nuoroda į genomą. Tikslas yra greitai lokalizuoti potencialius labai pakreiptus regionus, introgresuotus genus arba homogenizuotus genomo regionus.

3.5. Naudojimo atvejo pavyzdžiai

Buvo atlikta visa alotetraploido transkripto analizė Arabikos kava naudojant SNiPloid programinę įrangą subgenomų indėliui į transkriptą analizuoti [10]. Šis tyrimas leido apibūdinti viso genomo homoeologinės ekspresijos genų ekspresiją C. arabica, neseniai sukurtas alopoliploidas, jungiantis du subgenomus, kilusius iš dviejų glaudžiai susijusių diploidinių rūšių: C. canephora ir C. eugenioides. Skirtingi pavyzdžiai C. arabica gautas esant kontrastingoms temperatūroms ir vienas C. eugenioides pavyzdys buvo susietas su C. canephora etaloninis transkriptas, išanalizuotas SNP atradimui, prieš palyginant su SNiPloid, siekiant įvertinti homoeologinę genų ekspresiją ir pabrėžti galimus augimo sąlygų skirtumus. Be to, atvaizduodami skaito prieš C. eugenioides vietoj transkripto C. canephora, šis tyrimas parodė, kad santykinė homoeologinio geno ekspresija yra šiek tiek šališka genomo, naudojamo kaip nuoroda, naudai, kaip buvo numatyta aukščiau.

Iš šio tyrimo paimtas duomenų rinkinių pavyzdys pateikiamas SNiPloid žiniatinklio serverio, kad supažindintų vartotojus su teisinga įvestimi ir laukiamais rezultatais.

3.6. Našumas ir apribojimai

Pagrindinė SNiPloid funkcija skirta RNR-Seq duomenims ir poliploidinėms rūšims, kurių diploidinė transkripto nuoroda yra prieinama bent vienam iš tėvų.

Vienas RNA-Seq naudojimo SNP aptikimui ir vėlesniam interpretavimui apribojimas yra tas, kad nuorašo sekos atspindi tik išreikštą genomo dalį ir kad sekos nustatymo gylis labai skiriasi visame genome dėl skirtingų genų ekspresijos lygių. Taigi, galima aptikti tik gerai išreikštų genų SNP, o alelio arba homoeologinės ekspresijos paklaida gali apsunkinti tam tikrų SNP aptikimą dėl mažo jų dažnio transkripte. Tačiau NGS technologijos ir tinkamų skaitymo ribų naudojimas leidžia aptikti ir interpretuoti daugelio genome paskirstytų genų SNP.

Teoriškai, net jei alelio ekspresijos kiekybinis nustatymas nebūtų atliktas, genomo duomenų analizė taip pat būtų įmanoma. Tačiau techniniu požiūriu visą genomo analizę būtų sunku atlikti per mūsų žiniatinklio serverį, nes reikia įkelti VCF ir giluminių failų įvesties, kurios būtų didelės ir turėtų būti apskaičiuotos komandų eilutėje atsisiuntus SNiPloid paketą arba per Galaxy. .

Kalbant apie našumą, mūsų praktinė patirtis rodo, kad SNiPloid žiniatinklio serveris gali sėkmingai palyginti du RNR-Seq pavyzdžius, gautus iš poliploido ir diploidinės rūšies, pirmiausia susietą su visu etaloniniu transkriptu, o po to sugeneruojant 600 000 numanomų SNP. .

3.7. Palyginimas su kitais SNP bioinformatikos įrankiais

Nors yra daug SNP bioinformatikos įrankių ar vamzdynų, skirtų SNP iškvietimui (GATK [6], VarScan [11], WEP [12] ir MiST [13]) arba SNP anotacijai (SNPEff [14]) visame genomo mastelyje, tik keli programinės įrangos paketai leidžia automatiškai suskirstyti į kategorijas ir interpretuoti spėjamus SNP iš poliploidinių rūšių.

Dujotiekio pavyzdys, kurį pateikė Hand ir kt. [15] prognozuoja specifinę SNP subgenomo kilmę, naudodamas filogenetinį metodą, pagrįstą palyginimu su prognozuojamų pirmtakų rūšių ortologinėmis sekomis. Visai neseniai buvo sukurtas naujas dujotiekis, vadinamas PolyCat [16], skirtas NGS skaitymui, gautam iš alopoliploidinių organizmų, sudaryti ir suskirstyti į kategorijas. Turėdamas tą patį tikslą kaip ir SNiPloid, požiūris yra šiek tiek kitoks. „PolyCat“ naudoja skaitymus iš diploidų, kad sukurtų iš anksto indeksuotus homoeoSNP, kurie vėliau bus naudojami tetraploidų skaitymui priskirti subgenomui. Subgenomo priskyrimas atliekamas skaitymo lygiu, o SNiPloid valdo subgenomo priskyrimą, atsižvelgdamas į SNP padėtį pagal padėtį, skaičiuodamas homoeoSNP kiekvienam visos transkripto analizės nuorašui.

Šis metodas yra tinkamas ir pažangesnis, tačiau gali pasirodyti šiek tiek sudėtingesnis. Pagrindinis SNiPloid privalumas yra lengvas pritaikymas, nes nereikia išankstinio darbo kuriant homeoSNP duomenų bazę, kuri gali užtrukti, o ne bioinformatikams siūlo naudoti paruoštą žiniatinklio serverį, leidžiantį greitai gauti subgenomo priskyrimą. į „vieno paspaudimo“ analizę.

Be to, atrodo, kad mūsų požiūris yra tinkamesnis alopoliploidinėms rūšims, kurių poliploidizacijos įvykis yra palyginti neseniai evoliucijoje, pvz., Coffea ar Spartina.

4. Išvados

Mūsų žiniomis, SNiPloid yra pirmasis žiniatinklio įrankis, skirtas ir optimizuotas RNA-Seq duomenų, gautų iš alopoliploidinių rūšių, SNP analizei. Naudodamas gerai sutvarkytą informaciją, saugomą standartiniu VCF formatu, SNiPloid padeda interpretuoti numanomus SNP, aptiktus visame transkripte, naudojant išsamią SNP kategoriją. SNiPloid tinka alotetraploidams ir atveria naujas perspektyvas tirti alopoliploidų genomo struktūrą ar ekspresiją.

Nuorodos

  1. J. Higgins, A. Magusin, M. Trick, F. Fraser ir I. Bancroft, „mRNR-Seq naudojimas siekiant atskirti transkripto indėlį iš poliploidinių augalų rūšių Brassica napus sudedamųjų genomų“, BMC genomika, t. 13, straipsnis 247, 2012. Žiūrėti: Google Scholar
  2. H. Li ir R. Durbin, „Greitas ir tikslus trumpo skaitymo lygiavimas naudojant Burrows-Wheeler transformaciją“, Bioinformatika, t. 25, Nr. 14, p. 1754–1760, 2009. Žiūrėti: leidėjo svetainė | Google Scholar
  3. R. Li, C. Yu, Y. Li ir kt., „SOAP2: patobulintas itin greitas įrankis trumpam skaitymo lygiavimui“ Bioinformatika, t. 25, Nr. 15, p. 1966–1967, 2009. Žiūrėti: leidėjo svetainė | Google Scholar
  4. B. Langmead, „Trumpos sekos skaitymo suderinimas su Bowtie“, in Dabartiniai bioinformatikos protokolai, 11 skyrius, 11 skyrius. 7, John Wiley & Sons, Niujorkas, NY, JAV, 2010. Žiūrėti: leidėjo svetainė | Google Scholar
  5. „VCF formatas“, http://www.1000genomes.org/wiki/Analysis/Variant�ll𥈏ormat/vcf-variant-call-format-version-41. Žiūrėti: Google Scholar
  6. A. McKenna, M. Hanna, E. Banks ir kt., „Genomo analizės įrankių rinkinys: „MapReduce“ sistema, skirta naujos kartos DNR sekos nustatymo duomenims analizuoti“, Genomo tyrimai, t. 20, Nr. 9, p. 1297–1303, 2010. Žiūrėti: leidėjo svetainė | Google Scholar
  7. S. Kaur, M. G. Francki ir J. W. Forster, „Alopoliploidinių pasėlių rūšių vieno nukleotido sekos variacijos identifikavimas, apibūdinimas ir interpretavimas“, Augalų biotechnologijos žurnalas, t. 10, Nr. 2, p. 125–138, 2012. Žiūrėti: leidėjo svetainė | Google Scholar
  8. A. Dereeper, S. Nicolas, L. Le Cunff ir kt., „SNiPlay: internetinė priemonė SNP aptikimui, valdymui ir analizei. Taikymas vynuogių įvairovės projektams“, BMC Bioinformatika, t. 12, 134 straipsnis, 2011. Žiūrėti: leidėjo svetainė | Google Scholar
  9. J. Goecks, A. Nekrutenko, J. Taylor ir T. Galaxy Team, „Galaktika: visapusiškas požiūris į prieinamus, atkuriamus ir skaidrius skaičiavimo tyrimus gyvosios gamtos mokslų srityje“, Genomo biologija, t. 8, Nr. 8, straipsnis R86, 2010. Žiūrėti: leidėjo svetainė | Google Scholar
  10. M. C. . Combes, A. Dereeper, D. Severac, B. Bertrand ir P. Lashermes, „Subgenomų indėlis į transkriptą ir jų susipynęs reguliavimas alopoliploide“ Arabikos kava auginami kontrastingoje temperatūroje“, Naujasis fitologas, t. 200, Nr. 1, p. 251–260, 2013. Žiūrėti: leidėjo svetainė | Google Scholar
  11. D. C. Koboldt, K. Chen, T. Wylie ir kt., „VarScan: variantų aptikimas masiškai lygiagrečiai atskirų ir sujungtų mėginių sekvenavime“, Bioinformatika, t. 25, Nr. 17, p. 2283–2285, 2009. Žiūrėti: leidėjo svetainė | Google Scholar
  12. M. D'Antonio, P. D. De Meo, D. Paoletti ir kt., „WEP: didelio našumo analizės vamzdynas, skirtas viso egzomo duomenims“, BMC Bioinformatika, t. 14, 7 priedas, S11 straipsnis, 2013. Žiūrėti: Google Scholar
  13. S. Subramanian, V. Di Pierro, H. Shah ir kt., „MiST: naujas požiūris į variantų aptikimą giliosios sekos duomenų rinkiniuose“, Genomo biologija, t. 11, Nr. 8, straipsnis R86, 2010. Žiūrėti: Google Scholar
  14. P. Cingolani, A. Platts, L. Wang le ir kt., „Programa, skirta anotuoti ir numatyti vieno nukleotido polimorfizmų poveikį, SnpEff: SNPs in the genome of Drosophila melanogaster įtempti w 1118 , izo-2, izo-3,” Skristi, t. 6, Nr. 2, p. 80–92, 2012. Žiūrėti: leidėjo svetainė | Google Scholar
  15. M. L. Hand, N. O. Cogan ir J. W. Forster, „Genomo masto SNP identifikavimas keliuose aloheksaploidinių aukštųjų eraičinų morfotipuose.Festuca arundinacea Schrebas)“ BMC genomika, t. 13, straipsnis 219, 2012. Žiūrėti: leidėjo svetainė | Google Scholar
  16. J. T. Page, A. R. Gingle ir J. A. Udall, „PolyCat: išteklius, skirtas genomo kategorizavimui sekvenavimo skaitymams iš alopoliploidinių organizmų“, G3, t. 3, Nr. 3, p. 517–525, 2013. Žiūrėti: Google Scholar

Autorių teisės

Autorių teisės © 2013 Marine Peralta ir kt. Tai yra atviros prieigos straipsnis, platinamas pagal Creative Commons Attribution License, kuris leidžia neribotai naudoti, platinti ir atkurti bet kokioje laikmenoje, jei originalus darbas yra tinkamai cituojamas.


GS apibrėžimas

GS yra genų, turinčių susijusią funkciją ar charakteristikas, rinkiniai. Pavyzdžiui, GS gali būti identifikuojami iš rankiniu būdu sudarytų kelių žemėlapių, vaizduojančių molekulinę sąveiką ir reakcijos tinklus. 24 GS gali būti identifikuojami pagal kitus kriterijus, tokius kaip iš anksto nustatyta genomo sritis arba funkcijos panašumas (pvz., genai, dalyvaujantys DNR atstatyme). A growing number of publically available resources provide descriptions of pathways, along with lists of genes that contribute to the processes making up these pathways. Pathguide (http://www.pathguide.org) 25 lists over 300 databases of information related to pathways, demonstrating the challenge of selecting a pathway resource. Several of these pathway resources, including the KEGG (http://www.genome.jp/kegg/), 24 the Gene Ontology project (http://www.geneontology.org/), 26 MetaCore (http://www.genego.com/metacore.php), and BioCarta (http://www.biocarta.com/genes/index.asp), are commonly used. Specialized pathway resources, such as the Pharmacogenetics and Pharmacogenomics Knowledge Base for pharmacogenomic pathways (http://www.pharmgkb.org/), are also available. Additional information on pathway resources and GS definition can be found in Bader ir kt, 25 Bard and Rhee, 27 and Viswanathan ir kt. 28

When defining GSs for analysis, it is important to clearly state the scope of a GS, realizing that knowledge about the genome and definitions of GSs are evolving and that no single definition of a GS exists. 27 Care should be taken in selecting a reliable ontology resource, as some resources are based on more rigorous curating of GSs (eg, KEGG), whereas others provide more complete listings of biological pathways (eg, MetaCore). Finally, it is important to recognize that current coverage of genes (and thus GSs) is not uniform, as the coverage of genes by SNPs on GWAS arrays is not uniform. This problem will diminish with the development of denser genome-wide SNP arrays, or with use of genotype imputation methods. 29 However, at this point, interpretation of GS results should take into account coverage limitations for GSs of interest.

Once a set of genes is defined, questions remain regarding which SNPs should be included in the analysis of the GS. A commonly used approach is to include any SNP known to map to any gene or within a given distance of any gene, in the GS. Although it is not obvious how far up and downstream of each gene should be included in the mapping of SNPs to genes, ideally, the regulatory region(s) of each gene should be included and perhaps even regions in LD with any portion of the gene. Kalvis ir kt 30 reported that the degree of disequilibrium for markers separated by ∼ 30 kb in a Caucasian population was similar to the degree of disequilibrium between markers separated by ∼ 10 kb in an African population, with the average level of LD decaying to less than r 2 =0.10 after 50 kb. On the basis of these considerations, SNPs within 20–50 kb from the first and last exon should be included as part of a gene for GSA to cover the regulatory regions of the gene, as well as SNPs in LD with the gene.

Currently GSs usually consist of SNPs in, or near, genes thought to contribute to a particular biological process. However, the definition of a GS could be extended to use other knowledge related to gene function. For example, mRNA expression data has been used by Zhong ir kt 31 to define GSs that include eSNPs, that is, SNPs that have been shown to regulate the expression of a particular gene in either a cis- or vert-acting manner. Recent advances in molecular genetics provide novel insight into the relationships between genetic variation and variation in mRNA expression leading to the identification of eQTLs at an unprecedented level. 32 eSNPs can be defined based on study specific expression data or information from publically available databases (see eg, http://scan.bsd.uchicago.edu/newinterface/about.html 33 and http://eqtl.uchicago.edu/Home.html, 32, 34 ).


Medžiagos ir metodai

Single nucleotide polymorphisms (SNPs) and indels

Information about annotated SNPs and indels in human genes was used from the 1000 Genomes Project (1000G, phase 3, using only the European super population EUR, 503 individuals) [9] and from the Genome of the Netherlands (GoNL) project (release 5) [10, 11]. Thereby, we used SNPs only from the parents, i.e. no data was pooled. Moreover, the calculated SNP density is a function of the cohort size because larger studies pick up lower allele frequencies. Data was provided in VCF file format. For the analyses, we kept autosomal SNPs with a minor allele frequency larger than zero (allele frequencies were calculated by the respective consortium, see [9–11]). These variants were assigned to four classes, namely transition SNPs, transversion SNPs, indels (insertions and deletions without length cutoff), and the union of all variants.

SNPs and indels in nine genomic elements.

Human gene annotations were downloaded from the UCSC genome browser hg19 assembly (RefSeq genes). We removed genes coding for microRNAs and small nucleolar RNAs, genes with CDS start equal to the CDS end as well as genes located on chromosomes other than chromosome 1 to chromosome 22. Special care was taken of overlapping genes, where we distinguished between overlaps located inside other genes and staggered overlaps (genes overlap partially). Genes inside other genes were excluded. All genes with staggered overlap were collected and from each “bundle”, only one gene was selected to avoid overlapping genes. If a gene has more than one transcript variant, only the longest transcript was retained.

For a general overview on SNP frequencies in the human genome, nine basic genomic regions were derived based on the genomic information provided by the UCSC genome browser. The information needed to calculate the genomic coordinates of these regions for every gene was downloaded from UCSC genome browser and includes chromosome, strand, transcription start site (TSS), transcription end site (TES), CDS start (coding start site—CSS), CDS end (coding end site—CES), exon starts and exon ends. These regions comprise: intergenic region, CpG islands, promoter region, 5’ UTR, coding exons, 3’ UTR, all exons, introns, and intragenic region, see Fig 1. The regions were defined in the following way: every gene is located between two intergenic regions. The first one is defined as the interval between the TSS of the considered gene and the mid-upstream position between this TSS and the TES of the closest upstream gene. The second intergenic region is defined analogously according to the TSS of the closest downstream gene. The intragenic region of a gene is defined as the part between its TSS and its TES. The gene promoter was defined as the region from 2000 bp upstream to 1000 bp downstream of the TSS and thus overlaps with the intergenic region. 5’ UTRs are defined as the exonic segments between the TSS and the CSS while 3’ UTRs are defined analogously as the exonic regions between the CES and the TES. Exons are defined as the intervals between the exon start positions and exon end positions as given in the file retrieved from the UCSC genome browser. Introns are defined as the regions between the exonic gene parts. Besides these nine general regions, we also considered narrow sequence windows of ±200 bps around transcription and translation start sites as well as in direct vicinity (–15 to +13 bps) of the TSS and CSS.

Any calculations requiring interval arithmetic and sequence mapping were implemented using the BEDTools suite (version v2.26.0) [52], samtools (version 1.3.1) [53, 54] and/or bowtie (version 1.1.2) [55]. These operations include the assignment of SNPs and indels to their respective genes and genomic elements as well as the retrieval of genomic coordinates given a short nucleotide sequence and vice versa. SNP densities (number of SNPs per kb) were then calculated for the different variant types and the nine basic types of genomic elements. Note that the calculated SNP density is a function of the cohort size because larger studies pick up lower allele frequencies. The evaluation of the neutral evolution hypothesis was analyzed by the widely-used Tajima’s D statistic [31] for every genomic element. For this, we applied VCFtools (version v0.1.13) [56] with a bin size of 1 Mb to filtered VCF variant files that only contain variants found in the respective genomic regions. This means that these are concatenated variant files where regions of one type have been concatenated one after another. Tajima’s D aims at testing for the neutral mutation hypothesis by comparing two nucleotide diversity measures for genetic variation: the number of segregating sites and the average sequence diversity (number of nucleotide differences) [31]. Tajima’s D was only applied to the SNP data from 1000G because it provides publicly accessible genotype information. Therefore, the 1000G variations were split up into nine VCF files based on the genomic region they reside in. Tajima’s D was then computed separately for each of the nine VCF files using VCFtools and a bin size of 1 Mb. Genomic regions were then compared with each other using boxplots.

Two-tailed Wilcoxon rank sum tests together with Bonferroni correction were used for the statistical comparison of the different SNP types within the nine genomic elements. Thereby, we assume a p-value to be significant if p < 1.4 × 10 −3 which is equal to where .

SNP and indel frequencies around the TSS and the CSS

Since the regions around transcription start sites (TSS) and translation/coding start sites (CSS) have direct effects on gene transcription and protein translation, we investigated these regions in more detail and at higher resolution with respect to their SNP and indel distribution. SNPs and indels can, for instance, influence the binding of transcription factors in the promoter region or the translation initiation of the ribosome scanning complex in the 5’ UTR. We therefore examined the average SNP density in a range of ±200 bp around the TSS and CSS, and subsequently focused on SNPs in direct vicinity (position −15 to +13) to transcription and translation start sites.

To analyze the significance of a reported peak in the TSS, we randomly shuffled the defined intervals using BEDTools shuffle, repeated our evaluation 1000 times and recorded the size of the highest peak. The distribution of the height of the highest peak was then compared with our reported peak.

As especially translation initiation was shown to be highly dependent on the start site flanking region [16–19], we analyzed annotated (RefSeq genes) as well as alternative start sites located in the 5’ UTR in detail. As alternative start codons we considered codons in the upstream 5’ UTR region of the annotated start codon that are either AUG or differ from AUG in one nucleotide position [20–22]. RefSeq genes were retrieved as described above while alternative start sites in human HEK293 cells were retrieved from experimental ribosome profiling data and used as annotated by the original authors [21]. To investigate the flanking region around translation start sites, we defined a sequence window from −15 to +13 relative to a start site that encompasses positions 1, 2 and 3, see Fig 2. Next, duplicated sequence contexts (for example from several transcript variants) and codons differing from AUG and near-cognate variants were removed. SNPs from 1000G and GoNL were then mapped to these sequence contexts. Indels were excluded from further analysis since the amount of indels located in the predefined sequence window from −15 to +13 was too small such that a profound significance analysis was not possible.


Metodai

Plant material and growing conditions

The parental lines used in this study were tetraploid wheat cultivar 'Langdon' (LDN) and a recombinant substitution line (RSL65) from the cross LDN (DIC-6B) × LDN [4]. The homozygous recombinant lines used for the bulks and fine-mapping were either sister lines of RSL65 (generated from the same cross and with identification numbers less than 100) or were generated from the cross LDN × RSL65 (with identification numbers greater than 100). Their genotypes and grain protein concentration phenotypes have been described before [4, 5, 9, 14]. Briefly, 14 RSLs with known high protein (8, 28, 50, 54, 58, 65, 117, 121, 147, 152, 158, 241, 259, 300) and 14 lines with low protein (14, 19, 59, 77, 78, 129, 135, 148, 209, 289, 290, 293, 215, 3417) phenotype were used. These lines carry recombination events in homozygous state across the

12-cM interval, which includes GPC-B1 and is delimited by markers Xwms508 ir Xwms193.

To minimize differences in growth conditions between plants with an opposite phenotype, pairs of high and low protein RSLs were grown together in 2 L pots and properly labelled. Four biological replicates of each high-low pairing were grown, but only one pot was selected for sampling based on visual comparison between the high and low RSLs. The top third of the 5 th leaf was collected for DNA extraction, whereas the bottom third was collected for RNA extraction (the middle third was kept as back-up).

Preparation of samples and RNA bulks

DNA from individual samples was prepared as described previously [49] and analyzed for their genotype across the GPC-B1 interval using markers Xuhw89 (distal), Xucw71 (proximal) and Xucw101 (causal SNP at GPC-B1) using published conditions [11, 14]. Total RNA was prepared by grinding the bottom third of the 5 th leaf in liquid nitrogen and extracting RNA using TRIzol (Invitrogen) according to the manufacturer's protocol. RNA concentration was measured using 1 μL of each RNA sample on the NanoDrop ND-1000 Spectrophotometer. RNA quality was assessed by running 1 μL of each RNA sample on an Agilent RNA 6000 n LabChip (Agilent Technology 2100 Bioanalyzer). Samples with an RNA Integrity Number (RIN) value greater than eight were deemed acceptable according to the Illumina mRNA-Seq protocol. Equal amounts of RNA from the 14 individuals previously classified as high protein were mixed to produce the high protein RNA bulk. The low protein RNA bulk was constructed using the RSLs described above except for RSL 135, which was found to be heterozygous in the DNA marker analysis and therefore excluded. To maintain a balanced set of alleles at the flanking loci, we added double the amount of RNA from RSLs 77 and 78 to the low protein bulk, which therefore included RNA from 15 RSLs (13 distinct genotypes).

Illumina library production

The Illumina mRNA-Seq 8-Sample kit (RS-100-0801, Illumina Inc.) was used according to the manufacturer's protocol with the following modifications. In brief, poly-A containing mRNA molecules were purified from 5 ug total RNA using poly-T oligo attached magnetic beads. The purified mRNA was fragmented by addition of 5× fragmentation buffer (Illumina, Hayward, CA) and was heated at 94°C in a thermocycler with 2 different times (2 min and 5 min). The fragmentation time of 5 min is the standard time used in the protocol, which yields fragments of

250 bp. The shorter fragmentation time was used to yield slightly larger library fragments of 350-400 bp. First strand cDNA was synthesised using random primers to eliminate the general bias towards 3' end of the transcript. Second strand cDNA synthesis was done by adding GEX second strand buffer (Illumina, Hayward, CA), dNTPs, RNaseH and DNA polymerase I followed by incubation for 2.5 h at 16°C. Second strand cDNA was further subjected to end repair, A-tailing, and adapter ligation in accordance with the manufacturer supplied protocols. Purified cDNA templates were enriched by 15 cycles of PCR for 10 s at 98°C, 30 s at 65°C, and 30 s at 72°C using PE1.0 and PE2.0 primers and with Phusion DNA polymerase (Illumina, Hayward, CA). The samples were cleaned using QIAquick PCR purification columns and eluted in 30 μl EB (Elution Buffer) as per manufacturer's instructions (QIAGEN, CA). Purified cDNA libraries were quantified using Bioanalyzer DNA 100 Chip (Agilent Technology 2100 Bioanalyzer).

Illumina library clustering and sequencing conditions

Parental libraries were normalized to 7.5 nM in EB (Qiagen). Samples were then diluted to 1.5 nM with NaOH (4 μL of 10 nM stock, 1 μL of 2 N NaOH and 15 μL EB) and left at room temperature for 2 min before transferring 4 μL into 496 μL of HT1 (High salt buffer supplied with cluster kit Paired-End Cluster Generation Kit V4 PE-203-4001, Illumina) to give a final concentration of 12 pM. Each bulk library was normalised to 10 nM in EB, diluted to 2 nM with NaOH and 2.5 μL transferred into 497.5 μL HT1 to give a final concentration of 10 pM. 120 μL of normalised library was then transferred into a 200 μL strip tube and placed on ice before loading onto the Cluster Station, each library being run on a single lane. Flow cells were clustered using Paired-End Cluster Generation Kit V4, following the Illumina PE_amplification_Linearization_Blocking_PrimerHyb_v7 recipe. Following the clustering procedure, the flow cell was loaded onto the Illumina Genome Analyzer GAIIx instrument following the manufacturer's instructions. The sequencing chemistry used was v4 (FC-104-4001, Illumina) using software SCS 2.6 and RTA 1.6. Each parental library was run in a single lane for 120 cycles for each paired end, and each bulk library for 80 cycles. Illumina base calling files were processed using the GERALD pipeline to produce paired sequence files containing reads for each sample in Illumina FASTQ format.

Computational methods

After first converting the Illumina FASTQ files to Sanger FASTQ format, initial alignment of paired reads from single lanes was conducted using Maq v0.7.1 [50] against a wheat transcriptome reference comprising 40,349 unigene sequences totalling 31,671,110 bases (NCBI TA build 57) [25]. In the first experiments Maq default parameters were used. In subsequent experiments (referred to as Maq-120 in the text) the maximum summed quality score of mismatched bases was set to 120 (default 70) at each step in the workflow. This allowed SNP haplotypes occurring within the 120 base reads to align with higher mapping quality. Maq-120 alignment was also performed on the component of reads that failed to map to the NCBI Unigene reference against a new reference constructed from a 5× assembly of wheat Chinese Spring genomic 454 reads (M. Bevan, JIC, personal communication). For the bulk samples, maps constructed separately from the two library size fractions were merged before further processing. SNPs were detected and scored by methods previously developed for the polyploid oilseed rape Brassica napus [21, 28]. Crucially, it was expected that reads originating from homoeologous genes would be mapped to the same unigene reference. Briefly, Maq was used to call SNPs with respect to the reference for each parental line separately and then the SNP_parser.pl Perl script (Additional File 5) was used to derive the symmetric difference (A Δ B) of the two sets. Base calls at SNP positions together with quality scores were then programmatically compared and re-assessed by accessing the verbose pileup files generated from the Maq alignments, thus producing a filtered set of SNPs between the parents. This was done at different minimum depth thresholds (8-fold, 12-fold, and 16-fold). The Illumina reads for parental and bulk samples were deposited in the EMBL-EBI Sequence Read Archive (ERA050658).

A new Perl script bulk_frequencies.pl (Additional File 6) was developed to analyse allele frequencies for the parental SNPs between the two bulks. This used an indexing method [28] for fast access to individual lines in the pileup files in order to extract base calls and quality scores for each SNP position. For every hemi-SNP, for instance Y (i.e. C/T) from parent LDN versus C from parent RSL65, the frequency of the informative base (in this case T) was calculated for each bulk and then the ratio of this frequency between the bulks (BFR) was determined. The expectation was that a hemi-SNP coinciding with the trait/gene should be revealed by informative base frequencies tending to either 0.5 or to zero in the two bulks, depending on the parental origin. SNPs were filtered using a BFR of ≥ 3.0 as a threshold, after excluding divide-by-zero errors. Simple SNPs were processed in a similar fashion.

Unigenes that showed apparent SNP densities of greater than 5 SNPs/kb were considered artefactual (or paralogous) and excluded from the analysis (the SNP density between LDN and RSL65 had been experimentally determined as 2.2 SNPs/kb). The BFR results were organized in a spreadsheet format to aid further inspection and sorting. Ancillary synteny data for each unigene was added, including the best hit for the unigene from pre-computed BLASTN analysis against Brachypodium, rice and sorghum gene models (E-value cut-off 1E-50), together with a measure of transcript abundance, expressed as reads per kilobase per million mapped reads (RPKM values).

Marker design and SNP assays

To design markers targeting the putative SNPs, the 250-bp surrounding the candidate SNP on either side were extracted from the unigene. These sequences were annotated for exon-intron positions using BLASTN analysis against the 5× genomic sequence of wheat cultivar Chinese Spring (454 raw reads, unassembled) [30]. Sequences containing putative SNPs with over 100 hits at 1E-50 were considered repetitive and were not processed further. Primers for the SNPs identified in the Maq-default analysis were designed to amplify

150-200 bp fragments as the initial screens were based on single strand conformation polymorphism (SSCP) of PCR products. The second set of SNPs from the Maq-120 analysis was annotated using a similar approach, but primers were designed to amplify products for KASPar assays [42, 51] when possible. PCR conditions and SSCP analysis were done using published protocols [49]. KASPar oligos were ordered from Sigma-Aldrich, with primers carrying standard FAM or VIC compatible tails (FAM tail: 5' GAAGGTGACCAAGTTCATGCT 3' VIC tail: 5' GAAGGTCGGAGTCAACGGATT 3') and the target SNP in the 3' end. Primer mix was set up as recommended by Kbioscience (46 μl dH2O, 30 μl common primer (100 μM), and 12 μl of each tailed primer (100 μM)) [51]. Assays were tested in 384-well format and set up as 5 μl reactions (2.5 μl template [10-20 ng of DNA], 2.43 μl of V3 2xKaspar mix, and 0.07 μl primer mix). PCR was performed on a Peltier PTC-225 PCR tetrad machine fitted retrospectively with 384 blocks using the following protocol: Hotstart at 95°C for 15 min, followed by ten touchdown cycles (95°C for 20 s Touchdown 65°C, -1°C per cycle, 25 s) and then followed by 26 cycles of amplification (95°C 10 s 57°C 60 s). Since KASPar amplicons are usually smaller than 120 bp, no extension step is necessary in the PCR protocol. 384-well sample plates (Cat. No. 04729749001, Roche Diagnostics) were read on a Roche Lightcycler ® II 480 qPCR machine. Fluorescence was detected at ambient temperature (20-25°C RAMP speed 0.05°C per s) with four detection steps per °C. If the signature genotyping groups had not formed after the initial amplification, additional amplification cycles (usually 5-10) were applied, and the samples were read again. Data analysis was performed manually using the inbuilt Roche Lightcycler ® 480 software (Version 1.50.39). A full list of primers is provided (Additional File 7).

Accession codes

Short read sequence data reported here have been deposited at the Sequence Read Archive (SRA) under the accession code ERA050658.


Abstraktus

Genome-wide associations studies have repeatedly identified the major histocompatibility complex genomic region (6p21.3) as key in immune pathologies. Researchers have also aimed to extend the biological interpretation of associations by focusing directly on human leukocyte antigen (HLA) polymorphisms and their combination as haplotypes. To circumvent the effort and high costs of HLA typing, statistical solutions have been developed to infer HLA alleles from single-nucleotide polymorphism (SNP) genotyping data. nors HLA imputation methods have been developed, no unified effort has yet been undertaken to share large and diverse imputation models, or to improve methods. By training the HIBAG software on SNP + HLA data generated by the Consortium on Asthma among African-ancestry Populations in the Americas (CAAPA) to create reference panels, we highlighted the importance of (a) the number of individuals in reference panels, with a twofold increase in accuracy (from 10 to 100 individuals) and (b) the number of SNPs, with a 1.5-fold increase in accuracy (from 500 to 24,504 SNPs). Results showed improved accuracy with CAAPA compared to the African American models available in HIBAG, highlighting the need for precise population-matching. The SNP-HLA Reference Consortium is an international endeavor to gather data, enhance HLA imputation and broaden access to highly accurate imputation models for the immunogenomics community.


Diskusija

Complex diseases may be associated with combinations of SNPs. A number of methodological and theoretical studies have addressed this statistical and data-mining challenge [7]–[15], [34], but clinical investigations using combinations of several SNPs are rare [11]. The problem with combinations is the large numbers created, which is computationally demanding, especially when permutation tests are used as a statistical method. Thus in the present study, with 803 SNPs and combinations of no more than three SNP genotypes at a time, we found 1,985,613,130 3-combinations, close to the theoretical maximum of 2,321,319,627 3-combinations. Due to the relative low number of subjects and genetic factors as allele frequency and non-independence of SNPs located in the same gene region, we had expected to find a smaller number of 3-combinations.

In an attempt to identify 3-combinations related to BD, only 3-combinations found exclusively in the patient group were examined in more detail in this study, meaning that only combinations with 100% penetrance were examined. Among the 1,7 billion 3-combinations common for control persons and patients many may be associated with disease these combinations will be analysed separately. In the 58 million 3-combinations found exclusively in the patients, 45 million were singularities (found in one person only), raising the possibility that they were random. Following this line of reasoning, the 1181 3-combinations, shared by nine or more patients and no control person, may be the most promising in relation to BD, but permutation tests showed that these also might have been random. However, 172 of these 3-combinations were located in four clusters each characterised by a defining genotype, and by inclusion of all patients having this genotype. Occurrence of three or more clusters of this type was not found once in 1000 permutation tests, indicating that at least some 3-combinations in the clusters may be related to BD. In addition, subgroups within the four clusters also shared the second genotypes, and some had the third genotype in the 3-combinations located in the same gene, suggesting that accumulation of several genotypes in a single gene may be important for the disease susceptibility in some cases.

We found only 5 nominally significant SNPs in common between the Scandinavian material and the WTCCC material (see Table S1), indicating heterogeneity between the two samples. A cluster with the same defining genotype as in one of the four clusters observed in our material could not be found in the WTCCC material, as none of the four defining SNPs were present among the 132 genotyped SNP or the 337 imputated SNPs in the WTCCC dataset. However, three significant clusters were found. Again three of more clusters were not seen once in 1000 permutation tests. Also nesting 3-combinations sharing the two first genotypes was present in the WTCCC dataset (p = 0.029). An overlap in the clusters observed in the two dataset were not see in the 3-combinations exclusively found in patients, but may be found in the much larger group of combinations common for control persons and patients.

An examination of individual patient data in both sample sets shows that most of the patients carry many of the 3-combinations in the clusters although none had exactly identical pattern of 3-combinations, raising the possibility that each patient has a unique genetic background for the disorder. The subgroups of 3-combinations with overlap in patients, sharing two genotypes in more than four 3-combinations, are interesting because different SNP as the third (sometimes even from the same gene (in some cases in close LD)) leads to an accumulation of several genotypes in small group of patients. Such an accumulation may be important for the disease susceptibility.

Askland et al. [12] found that although the data from two large independent GWAS [33], [35] both pointed to ion channel genes as important for BD, only a modest overlap between the two studies was found for the involved genes. The authors suggested that prominent genetic heterogeneity might explain this modest overlap [12]. The present analyses of the 3-combinations of SNP genotypes support the explanation that genetic heterogeneity is prominent in the genetic architecture of BD. This heterogeneity is illustrated by the many patient-specific 3-combinations of SNP genotypes, some of which may be important for BD. The selection of genes in this study is based on their relation to some aspects of signal transmission in the brain, so obviously any combination of genotypes might be related to this function. However, a more narrow relationship may be seen in the cluster defined by KCNQ3 rs2469515 (Figure 4) together with ANK3 rs12049756 and three different SNPs from SCN2A (rs12469667, rs3769949, and rs997508) as the proteins translated from these genes all are located in the node of ranvier [25]. Similarly, in the largest subgroup defined by CACNG2 rs2179871 (Figure 3), and involving 13 combinations with KCNN3 rs6426998 as the second SNP, many of the nine different genes involved as the third SNP are implicated in the architecture of the sodium channels in the node of ranvier (e.g. SPTBN4, CNTNAP2, NFASC, SCN2A ir ANK3).

Our study indicates that BD may show extreme genetic heterogeneity at the population level. At the same time the many 3-combinations in each patient may support gene-gene interactions or epistasis important for BD. However, such interactions probably will involve genes not analysed in the present study. A more profound discussion of functional connections between the genes participating in a combination remain speculative and is preliminary until more genes related to signal transmission are analysed and combinations of more than three genotypes can be carried out. The pronounced genetic heterogeneity and the number of possible interactions on the individual level both suggest that the biology of BD may be very complex but on the other hand, if the genotypes behind the heterogeneity are associated with a limited number of functions the degree of complexity may be decreased.

Future direction

In this work we have looked at the combinations of three SNP genotypes that were observed in patients only. The next step is to look at the much larger number of combinations seen in both patients and controls. However, this may involve calculations of combinations with more than three SNP genotypes.


Multiple Testing for SNP-SNP Interactions

Most genetic diseases are complex, i.e. associated to combinations of SNPs rather than individual SNPs. In the last few years, this topic has often been addressed in terms of SNP-SNP interaction patterns given as expressions linked by logical operators. Methods for multiple testing in high-dimensional settings can be applied when many SNPs are considered simultaneously. However, another less well-known multiple testing problem arises within a fixed subset of SNPs when the logic expression is chosen optimally. In this article, we propose a general asymptotic approach for deriving the distribution of the maximally selected chi-square statistic in various situations. We show how this result can be used for testing logic expressions - in particular SNP-SNP interaction patterns - while controlling for multiple comparisons. Simulations show that our method provides multiple testing adjustments when the logic expression is chosen such as to maximize the statistic. Its benefit is demonstrated through an application to a real dataset from a large population-based study considering allergy and asthma in KORA. An implementation of our method is available from the Comprehensive R Archive Network (CRAN) as R package 'SNPmaxsel'.

Žurnalas

Statistical Applications in Genetics and Molecular Biology &ndash de Gruyter


Žiūrėti video įrašą: How to Calculate a Correlation and P-Value in Microsoft Excel (Gegužė 2022).