Informacija

4.3.2: GWAS – biologija

4.3.2: GWAS – biologija



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Mokymosi tikslai

  • Paaiškinkite, kaip molekuliniai žymenys ir ryšys gali būti naudojami siekiant nustatyti genus, kurie prisideda prie sudėtingų bruožų per GWAS.
  • Interpretuokite Manheteno siužetą, suprasdami, kad GWAS identifikuoja chromosomų sritis kurie yra susiję su fenotipais. Mokslininkai naudoja šią informaciją, kad atliktų eksperimentus su genais tose srityse, kad nustatytų, ar tie genai turi įtakos fenotipui.
  • Kas yra visos genomo asociacijos tyrimai?

Matėme, kad ryšys gali būti naudojamas genų atvaizdavimui. Tačiau šis požiūris nėra tinkamas. Apsvarstykite šiuos veiksnius:

  • Kai kuriais atvejais, ypač žmogaus genetikos, nukreipti kryžiai (bandomieji kryžiai) nėra praktiški ar etiški!
  • Sudėtingų bruožų fenotipas gali skirtis pagal spektrą.
  • Dėl sudėtingų bruožų genų aleliai keliose chromosomose greičiausiai prisideda prie fenotipo.

Vietoj to, visos genomo asociacijos tyrimai lygina daugelio asmenų, turinčių ir be fenotipo, genomo žymenis, kad būtų galima paklausti, kur žymenys skiriasi priklausomai nuo fenotipo.

Svarbūs terminai norint suprasti GWAS

  • SNP: vieno nukleotido polimorfizmai yra pozicijos
  • Ryšys: lokusai yra pakankamai arti vienas kito išilgai chromosomos, todėl homologinė rekombinacija tarp jų vyksta rečiau nei prognozuota
  • Haplotipas: SNP rinkinys, kurį galima paveldėti kartu

Dabartinis tyrimų ryšys:

2020 m. New England Journal of Medicine paskelbtame straipsnyje pranešama apie „Genomewide asociacijos tyrimą dėl sunkaus Covid-19 su kvėpavimo nepakankamumu“ (https://www.nejm.org/doi/full/10.1056/NEJMoa2020283).

Apsvarstykite šiuos klausimus apie popierių:

  • Kiek pacientų dalyvavo ir kokia informacija apie pacientus buvo surinkta?
  • Ar buvo kokių nors etinių sumetimų atliekant tyrimą? Jei taip, paaiškinkite kodėl.
  • Kiek SNP buvo genotipuoti ir koks buvo metodas (žr. vaizdo įrašą aukščiau) ir kiek SNP (arba variantų) buvo statistiškai reikšmingi?
  • Kaip mokslininkai pereina nuo susijusio SNP (ar kito varianto) ir galimų genų?
  • Kokie turėtų būti kiti eksperimentai, siekiant ištirti kandidato geno (-ų) vaidmenį?

Nuorodos

Ellinghaus D, Degenhardt F, Bujanda L ir kt. Sunki Covid-19 GWAS grupė. Viso genomo asociacijos tyrimas dėl sunkaus Covid-19 su kvėpavimo nepakankamumu. N Engl J Med. 2020 m. birželio 17 d.: NEJMoa2020283. doi: 10.1056 / NEJMoa2020283. Epub prieš spausdinimą. PMID: 32558485; PMCID: PMC7315890.


Histono lizino metiltransferazių ir demetilazių mutacijos

Sara Weirich, Albertas Jeltschas, Vėžio enciklopedijoje (trečiasis leidimas), 2019 m.

SMYD PKMT šeima

SMYD PKMT baltymų šeimą sudaro penki nariai, pavadinti SMYD1–5. SMYD baltymai nėra gerai apibūdinti, tarp jų SMYD2 ir SMYD3 yra geriausiai ištirti. Jie buvo sugrupuoti pagal panašią domeno architektūrą, kurioje yra padalintas SET domenas, kuriame yra įterptas MYND (mieloidinis, nervinis ir DEAF-1) domenas. MYND domenas yra atsakingas už baltymų ir baltymų sąveiką, o padalintame SET domene yra katalizinių elementų, kaip ir kituose SET domeno fermentuose. Buvo pranešta, kad SMYD2 monometilina keletą lizino liekanų ant histono ir nehistono baltymų. Iš pradžių buvo įrodyta, kad jis metiluoja H3K36, tačiau vėliau buvo pranešta, kad sąveika su HSP90α keičia jo specifiškumą H3K4 atžvilgiu. Papildomi tyrimai parodė, kad SMYD2 taip pat metiluoja estrogenų receptorių alfa K266, p53 K370 ir retinoblastomos (RB) baltymo K810 ir K860. Iš pradžių SMYD3 buvo identifikuotas kaip H3K4 di- ir trimetiltransferazė. Vėlesnėse ataskaitose nustatyta, kad SMYD3 taip pat gali metilinti H4K20, pirmenybę teikdamas dimetilintam lizinui kaip substratui, ir kad jis trimetilina histoną H4 ties K5. Be to, SMYD3 taip pat metiluoja nehistoninius baltymus, tokius kaip kraujagyslių endotelio augimo faktoriaus receptorius 1 (VEGFRI) K831, o tai padidina jo kinazės aktyvumą. Apskritai SMYD3 metilinimo vieta (-os) vis dar yra dviprasmiška, o visas substrato baltymų spektras nėra gerai žinomas.


1. Įvadas

Žmonių sveikatos srityje genomo masto asociacijos tyrimais (GWAS) siekiama kiekybiškai įvertinti, kaip vieno nukleotido polimorfizmai (SNP) yra linkę į sudėtingas ligas, tokias kaip diabetas ar kai kurios vėžio formos [1]. Tuo tikslu tipiškoje GWAS yra genotipuojami tūkstančiai nesusijusių mėginių: atvejai, sergantys dominančia liga, ir kontrolė, paimta iš bendrosios populiacijos. Tada tarp kiekvieno SNP ir fenotipo atliekamas statistinis asociacijos testas (pvz., pagrįstas logistine regresija). Tie SNP, kurių P vertė mažesnė nei konservatyvi Bonferroni slenkstis, yra kandidatai į tolesnius tyrimus nepriklausomose grupėse. Nustačius rizikos SNP, jie gali būti naudojami rizikos vertinimui ir mūsų supratimui apie ligą gilinti.

GWAS sėkmingai nustatė tūkstančius daugelio įprastų ligų variantų [2]. Tačiau ši eksperimentinė aplinka taip pat kelia būdingų iššūkių. Kai kurie iš jų kyla dėl didelio problemos dimensijos, nes kiekvienas GWAS iki šiol tiria daugiau variantų nei mėginiai yra genotipuojami. Tai riboja statistinę eksperimento galią, nes jis gali aptikti tik didesnio poveikio variantus [3]. Tai ypač problematiška, nes vyrauja nuomonė, kad dauguma genetinių architektūrų apima daugybę variantų su nedideliu poveikiu [3]. Be to, kad būtų išvengta klaidingų teigiamų rezultatų, dauguma GWAS taiko konservatyvią kelių testų korekciją, paprastai anksčiau minėtą Bonferroni korekciją. Tačiau Bonferroni korekcija yra pernelyg konservatyvi, kai statistiniai testai koreliuoja, kaip tai atsitinka GWAS [4]. Kitas neišspręstas klausimas yra rezultatų aiškinimas, nes dažniausiai pasitaikančių variantų funkcinės pasekmės nežinomos. Be to, naujausi didelių imčių tyrimai rodo, kad daugybė lokusų, išplitusių visame genome, tam tikru mastu prisideda prie bet kokio sudėtingo bruožo, remiantis be galo mažu modeliu [5]. Neseniai pasiūlytame omnigeniniame modelyje [6] pateikiamas paaiškinimas: genai yra stipriai tarpusavyje susiję ir daro įtaką vienas kito funkcijoms, todėl daugumos genų pakitimai gali paveikti 𠇌ore” genų, tiesiogiai susijusių su ligos mechanizmu, pogrupį. Taigi visapusiška statistinė sistema, apimanti biologinių duomenų struktūrą, gali padėti išspręsti pirmiau minėtus klausimus.

Dėl šios priežasties daugelis autorių kreipiasi į tinklo biologiją, kad tvarkytų sudėtingą biomolekulių, sukeliančių ligas, sąveiką [7, 8]. Kaip rodo pavadinimas, tinklo biologija modeliuoja biologiją kaip tinklą, kuriame tiriamos biomolekulės, dažnai genai, yra mazgai, o pasirinkti funkciniai santykiai yra juos jungiančios briaunos. Šie ryšiai atsiranda dėl įrodymų, kad genai kartu prisideda prie biologinės funkcijos, pavyzdžiui, jų išraiškos yra koreliuojamos arba jų produktai sukuria baltymų ir baltymų sąveiką. Šiuo požiūriu sudėtingos ligos yra ne vieno pakitusio geno, o kelių tarpusavyje susijusių molekulių sąveikos pasekmė [9]. Tiesą sakant, biologinių tinklų tyrimas rodo, kad ligų genai turi skirtingas savybes [9, 10]: jie linkę užimti centrines tinklo vietas (nors ir ne pačias centrines), tos pačios patologijos ligų genai linkę telktis į modulius ir dažnai tai yra kliūtys, sujungiančios modulius.

Tinklu pagrįsti atradimo metodai išnaudoja aukščiau aprašytas diferencines savybes, kad nustatytų ligos genus naudojant GWAS duomenis [11, 12]. Iš esmės kiekvienas genas gauna ryšį su liga, apskaičiuotą iš GWAS duomenų, ir biologinių ryšių rinkinį, kurį suteikia tinklas, pagrįstas ankstesnėmis žiniomis. Tada problema tampa surasti funkciškai susijusį aukšto balo genų rinkinį. Buvo pasiūlyta daug šios problemos sprendimų, dažnai kylančių iš skirtingų matematinių schemų ir svarstymų, kaip atrodo optimalus sprendimas. Pavyzdžiui, kai kurie metodai apriboja problemą iki tam tikrų tipų potinklių. Toks yra LEAN [13] atvejis, kuriame dėmesys sutelkiamas į “star” potinklius, ty atvejus, kai ir genas, ir jo tiesioginiai sąveikos dalyviai yra susiję su liga. Kiti algoritmai, tokie kaip dmGWAS [14] ir heinz [15], netaiko tokių stiprių suvaržymų ir ieško potinklių, jungiančių genus su aukštu asociacijos balu. Tačiau jie skiriasi savo tolerancija žemo balo mazgų įtraukimui ir sprendimo topologija. Galiausiai, kituose metoduose taip pat atsižvelgiama į tinklo topologiją, teikiant pirmenybę mazgų grupėms, kurios yra ne tik aukšto balo, bet ir tankiai tarpusavyje sujungtos, pavyzdžiui, HotNet2 [16], SConES [17] ir SigMod [18].

Šiame darbe mes ištyrėme tinklinio požiūrio į genetiką svarbą, taikydami šiuos šešis tinklo metodus GWAS duomenims. Jie naudoja įvairias omnigeninio modelio interpretacijas ir pateikia reprezentatyvų lauko vaizdą. Mes dirbome su GENESIS duomenų rinkiniu [19], šeiminio krūties vėžio tyrimu, atliktu prancūzų populiacijoje. Taikydami klasikinį GWAS metodą, mes panaudojome šiuos tinklo metodus, kad nustatytų papildomus krūties vėžio jautrumo genus. Galiausiai palyginome skirtingais metodais gautus sprendimus ir ištyrėme jų sankirtą, kad gautume konsensuso sprendimus dėl polinkio į šeiminį krūties vėžį, kurie pašalintų jų trūkumus.


Giuseppina Casu

Giuseppina Casu 1994 m. Sasario universitete įgijo medicinos laboratorijos technikės laipsnį, šiuo metu ji dirba technine asistente IRGB-CNR nuo 1996 m. Jos moksliniai tyrimai beveik visada buvo skirti daugiafaktorinių ligų (inkstų) tyrimams. akmenys, hipertenzija) izoliuotose Sardinijos populiacijose. Nuo 2008 iki 2018 m., pasirašius IRGB ir Sasario universiteto Veterinarinės fiziologijos instituto susitarimą, ji dalyvavo projekte dėl ožkų paveldo stiprinimo ir išsaugojimo Sardinijoje. Be to, tuo tarpu ji taip pat bendradarbiavo atliekant tyrimą, kuriame pagrindinis dėmesys buvo skiriamas talasemijai Vietname.

Jos veikla buvo paremta pagrindinių molekulinės biologijos metodų taikymu, kaip antai: DNR ekstrahavimas fiziologiniu tirpalu ir Qiagen rinkiniu, DNR amplifikacija PGR, DNR sekos nustatymas naudojant automatinį sekvenavimo įrenginį ABI PRISM 3130 XL Genetic Analyzer ir DNR. fragmentacija restrikcijos endonukleazėmis.

Nuo 2020 m. ji dirba su cholangiokarcinomos ir skydliaukės pacientų iš parafinu įterpto naviko audinio išskirtų DNR genetinių mutacijų aptikimu ir kiekybiniu įvertinimu, naudodama pirosequencing techniką su PyroMark Q24 Qiagen 2.0.6 versija.

Svarbiausios publikacijos:

Doro, Maria G Casu, Giuseppina Frogheri, Laura Persico, Ivana Triet, Le Phan Minh Hoa, Phan Thi Thuy Hoang, Nguyen Huy Pirastru, Monica Mereu, Paolo Cucca, Francesco Masala, Bruno

Hemoglobinas, 41 (2), p. 96–99, 2017 m., ISSN: 1532-432X 0363-0269.

Doro, Maria Grazia Piras, Daniela Leoni, Giovanni Giuseppe Casu, Giuseppina Vaccargiu, Simona Parracciani, Debora Naitana, Salvatore Pirastu, Mario Novelletto, Andrea

PloS One, 9 (4), p. e95969, 2014 m., ISSN: 1932-6203.

Piras, Daniela Doro, Maria Grazia Casu, Giuseppina Melis, Paola Maria Vaccargiu, Simona Piras, Ignazio Parracciani, Debora Stradoni, Roberta Frongia, Bruno Lai, Graziano Sale, Salvatore Cattari, Walter Piras, Roberto Querci, Ombretta Demuro, Piergiroorgio Cui Atzori, Franco Mancosu, Marco Marchiori, Francesca Cammelli, Rossana Spiga, Alessandra Loddo, Pier Paolo Pili, Gianfranco Boi, Roberto Argiolas, Giuseppe Mereu, Paolo Leoni, Giovanni Giuseppe Naitana, Salvatore Pirastu, Mario Novelletto, Andrea

PloS One, 7 (2), p. e30785, 2012, ISSN: 1932-6203.

Tore, S Casula, S Casu, G Concas, M P Pistidda, P Persico, I Sassu, A Maestrale, G B Mele, C Caruso, M R Bonerba, B Usai, P Deiana, I Thornton, T Pirastu, M Forabosco, P

Naujo metodo taikymas GWAS susijusiam atvejui / kontroliniam mėginiui su žinoma kilmės struktūra: naujų inkstų akmenligės lokusų nustatymas Žurnalo straipsnis

PLoS Genet, 7 (1), p. e1001281, 2011 m.

Archyviniai, demografiniai ir genetiniai tyrimai apibrėžia Sardinijos subizoliatą kaip tinkamą modelį sudėtingų bruožų atvaizdavimui Žurnalo straipsnis


Atkreipkite dėmesį: nustatėme, kad iš pradžių įkelti JK Biobank ir GIANT metaanalizės KMI failai neatspindi viso imties dydžio ir dabar buvo pataisyti. Jei atsisiuntėte šiuos failus iki 2018 m. birželio 25 d., atsisiųskite juos dar kartą. Atsiprašome už nepatogumus.

Jei naudojate šiuos duomenis, cituokite: Yengo L, Sidorenko J, Kemper KE, Zheng Z, Wood AR, Weedon MN, Frayling TM, Hirschhorn J, Yang J, Visscher PM, GIANT Consortium. (2018). Viso genomo ūgio ir kūno masės indekso asociacijos tyrimų metaanalizė


Išvados

Šiame tyrime naudojome didelį duomenų rinkinį iš 120 palikuonių testų ir naujai surinktų duomenų iš klonų archyvų, kad atliktume didžiausią asociacijos tyrimą Norvegijos eglėje. Atlikdami faktorių analizę ir erdvinę analizę, sujungėme įvairų ir nevienalytį skirtingo amžiaus, vietovių ir kilmės duomenų rinkinį su minimaliu genetiniu ryšiu, kad pagerintume GWAS fenotipinės vertės tikslumą. Nors bendras reikšmingų SNP, nustatytų augimo ir medienos kokybės požymiams, skaičius buvo ribotas, mums pavyko aptikti daugiau fenologinių savybių SNP. Tai taip pat parodo identifikuotų SNP nustatymo vertę tiek replikacijos, tiek tikrinimo etapais. Iš tiesų, mūsų GWAS tyrimui pavyko nustatyti, atkartoti ir patikrinti genų ekspresijos tyrimą ryšį tarp šalčio tolerancijos genų MAP3K ir pumpurų sprogimo. Kadangi su šalčio tolerancija susiję SNP taip pat yra susiję su medžių augimu ir DBH, gerinant šalčio toleranciją, kartu būtų galima padidinti miškų augimą ir produktyvumą.


Manuela Uda

Genų variantų, nustatytų atliekant viso genomo asociacijos tyrimus, molekulinis ir funkcinis apibūdinimas, susijęs su vaisiaus hemoglobino kiekio reguliavimu ir klinikiniu β-talasemijos bei kitų hemoglobinopatijų fenotipo gerinimu. Visų pirma šiuo projektu siekiama išsiaiškinti BCL11A transkripcijos faktoriaus veikimo mechanizmą, siekiant sukurti naujus terapinius paveldimų anemijų gydymo būdus.

Svarbiausios publikacijos:

Danjou, Fabrice Zoledziewska, Magdalena Sidore, Carlo Steri, Maristella Busonero, Fabio Maschio, Andrea Mulas, Antonella Perseu, Lucia Barella, Susanna Porcu, Eleonora Pistis, Giorgio Pitzalis, Maristella Pala, Mauro Menzel, Stephan Metrustry, Sarah D Leoni , Lidia Angius, Andrea Uda, Manuela Moi, Paolo Thein, Swee Lay Galanello, Renzo ç, Gon Schlessinger, David Sanna, Serena Cucca, Francesco

Nature Genetics, 47 (11), p. 1264–1271, 2015, ISSN: 1546–1718.

Benyamin, Beben Esko, Tonu Ried, Janina S Radhakrishnan, Aparna Vermeulen, Sita H Traglia, Michela ö, Martin G Anderson, Denise Broer, Linda Podmore, Clara Luan, Jian'an Kutalik, Zoltan Sanna, Serena van der Meer, Peter Tanaka , Toshiko Wang, Fudi Westra, Harm-Jan Franke, Lude Mihailov, Evelin Milani, Lili ä, Jonas H ä, Jonas H Winkelmann, Juliane Meitinger, Thomas Thiery, Joachim Peters, Annette Waldenberger, Melanie Rendon, Augusto Jolley, Jennifer Sambrook, Jennifer Kiemeney, Lambertus A Sweep, Fred C Sala, Cinzia F Schwienbacher, Christine Pichler, Irene Hui, Jennie Demirkan, Ayse Isaacs, Aaronas Amin, Najaf Steri, Maristella é, G Verweij, Niek Powell, Joseph E Nyholt, Dale R Heath, Andrew C Madden, Pamela AF Visscher, Peter M Wright, Margaret J Montgomery, Grant W Martin, Nicholas G Hernandez, Dena Bandinelli, Stefania van der Harst, Pim Uda, Manuela Vollenweider, Peter Scott, Robert A Langenberg, Claudia Wareham, Nicholas J Konsorciumas, InterAct van Duijn, Cornelia Beilby, Johnas Pramas staller, Peter P Hicks, Andrew A Ouwehand, Willem H Oexle, Konrad Gieger, Christian Metspalu, Andres Camaschella, Clara Toniolo, Daniela Swinkels, Dorine W Whitfield, John B

Nature Communications, 5, p. 4926, 2014, ISSN: 2041-1723.

The World Journal of Biological Psychiatry: The Official Journal of the World Federation of Societies of Biological Psychiatry, 14 (8), p. 583–589, 2013, ISSN: 1814–1412.


Įvadas

Limfomos, apibrėžiamos kaip ne Hodžkino (NHL), Hodžkino (HL) ir lėtinė limfocitinė leukemija (LLL) / mažoji limfocitinė limfoma, yra dažniausios hematologinės piktybinės ligos Vakarų šalyse. metų Jungtinėse Amerikos Valstijose. 1 Nors ilgą laiką buvo gauta pranešimų apie šeiminį limfomų ir leukemijų susikaupimą, tik palyginti neseniai buvo manoma, kad šie piktybiniai navikai turi svarbų paveldimą genetinį komponentą, išskyrus labai retus paveldimo vėžio sindromus. 2 2001 m. Pasaulio sveikatos organizacija pristatė atnaujintą limfomų klasifikavimo sistemą, pagrįstą pataisyta Europos Amerikos limfomų klasifikacija 3, kuri tapo tarptautiniu aukso standartu. 4 Ši klasifikacija suteikė pirmąją biologiškai pagrįstą integruotą sistemą, leidžiančią nuosekliai apibrėžti limfomos potipius, taip labai palengvindama šios nevienalytės ligų grupės tyrimus.

Remdamiesi ankstesnėmis apžvalgomis, 5–11 d., mes sutelkiame dėmesį į stipriausius duomenis apie šeiminį polinkį (įskaitant dvynių, atvejų kontrolės ir registro tyrimus) ir lytinių ląstelių jautrumo lokusus (įskaitant ryšio ir genetinės asociacijos tyrimus) dėl limfomos ir pateikiame šiuos duomenis. išvados į klinikinį kontekstą. Viena iš naujų limfomos etiologijos temų yra ta, kad rizikos veiksniai pagal potipius yra bendri ir nevienalytiški 12, todėl mes taip pat svarstome šią problemą šeimyninio polinkio ir genetinių rizikos veiksnių kontekste.


Abstraktus

Šiame darbe aptariamas teiginys, kad alternatyvūs evoliucinės biologijos požiūriai, pagrįsti naujais pasiekimais suprantant variacijos ir paveldėjimo molekulinius ir vystymosi pagrindus, turėtų būti suvokiami kaip perėjimas nuo „statistinių“ prie „mechanistinių“ aiškinamųjų schemų (Pigliucci ir Müller 2011). Žinoma, šiuolaikinei sintezei buvo būdingi statistiniai metodai, tačiau, nagrinėdamas episteminius postgenominio mokslo ypatumus, tvirtinu, kad tai nėra tinkamas dabartinio episteminio poslinkio apibūdinimas. Pirmiausia apibūdinsiu dvigubą geno prigimtį vystymosi ir paveldėjimo metu, pateikdamas tai skirtumui tarp dviejų rūšių priežastinių ryšių. Atsižvelgdamas į postgenomikos mokslo pokyčius, susijusius su genų, variacijos ir paveldėjimo sampratomis, pirmiausia tvirtinu, kad, priešingai nei mechanistiniai paaiškinimai, šis pokytis suteikia mums naujų topologinių aiškinamųjų schemų, leidžiančių priartėti prie įvairių rūšių genominių tinklų, naujų ir nukleotidų. sutelktos statistinės priemonės, kurios greičiausiai nebus tiesiogiai paverstos mechaniniu priežastinių vaidmenų modeliavimu. Teigiu, kad užuot nagrinėjant episteminius pokyčius remiantis klasikinės statistikos ir mechanizmų skirtumu, verčiau reikėtų pripažinti postgenominiam mokslui būdingų aiškinimo būdų įvairovę ir to pasekmes evoliucinei biologijai.


Pabrėžia

Iš 1000 ilgų tarpgeninių nekoduojančių RNR žmogaus genome nekonservuotos ilgos tarpgeninės nekoduojančios RNR asocijuojasi su kardiometaboliniais požymiais tokiu greičiu, kuris yra panašus į konservuotų ilgų tarpgeninių nekoduojančių RNR.

Šie atradimai yra nuoseklūs daugeliui kardiometabolinių savybių ir išlieka naudojant skirtingus išsaugojimo apibrėžimus.

Kalbant apie visus kardiometabolinius požymius, daugiau nei trečdalis viso genomo asociacijos tyrimų, susijusių su ilgų tarpgeninių nekoduojančių RNR, yra neužkonservuotos, remiantis sintene padėties išsaugojimu, ir tai padidėja iki dviejų trečdalių, taikant griežtesnį išsaugojimo apibrėžimą.

Įvadas

Dauguma lokusų, nustatytų atliekant didelio masto genomo tyrimus, siekiant nustatyti sudėtingus kardiometabolinius požymius, patenka į tarpgeninius regionus, ir daugelis iš šių sutampa genominių savybių, suteikiančių ląstelėms specifines reguliavimo funkcijas. Iš tiesų, žmogaus audinių transkripto profiliavimas atskleidė tūkstančius ilgų tarpgeninių nekoduojančių RNR (lincRNR), atstovaujančių daugumą visų ilgų nekoduojančių RNR (lncRNR), transkribuotų ląstelėms ir audiniams būdingu būdu daugelyje šių lokusų, todėl kyla klausimas kaip. ar šios lincRNR gali būti priežastiniai elementai kardiometabolinių požymių asociacijoms šiuose tarpgeniniuose lokusuose. 1 Šioje srityje priimta konvencija rodo, kad genetiniai elementai, kurie yra išsaugoti daugelyje rūšių, yra labiau funkcionalūs ir, jei juos sutrikdo mutacijos ar įprasti kitimai, atitinkamai prisideda prie retų ligų ir sudėtingų bruožų. Evoliucinis profiliavimas rodo, kad dauguma žmogaus lincRNR, susietų pagal RNR seką, nėra išsaugotos už primatų rūšių ribų, ir buvo pasiūlyta, kad tam tikra jų dalis gali būti ne tikros funkcinės lncRNR, o greičiau pervazinės transkripcijos šalutiniai produktai. Tačiau neseniai atliktas darbas atskleidžia daugybę nekonservuotų žmogaus lincRNR, kurios yra funkcinės ir biologiškai svarbios, pavyzdžių, įskaitant pogrupį, kuris gali būti priežastinis elementas žmogaus kardiometabolinių ir kitų ligų lokusuose. 1,4–15

Šios perspektyvos kelia svarbių klausimų, ar genetinė variacija nekonservuotose lincRNR turi sistemingą ryšį su sudėtingomis kardiometabolinėmis ligomis, ir jei taip, kaip šis modelis skiriasi nuo konservuotų lincRNR. Tai yra svarbus klausimas nustatant, kurioms žmogaus lincRNR turėtų būti teikiama pirmenybė funkciniams ir transliaciniams tyrimams. Jei nekonservuotos lincRNR reikalauja sistemingo tardymo, tam reikia pakeisti mąstymą ir taikyti naujoviškus in vivo humanizuotus modelius, kad būtų galima išspręsti nekonservuotų lincRNR fiziologinius vaidmenis ir poveikį ligoms. Žvelgiant plačiau, kadangi žmogaus genomuose daugiausia yra nekonservuotų lincRNR, tradicinę išsaugojimo sampratą, skatinančią funkcinių prioritetų nustatymą atliekant kardiometabolinių modelių sistemų mechaninius tyrimus, gali prireikti persvarstyti, atsižvelgiant į didėjančias žinias apie įvairias, nekonservuotas, funkcines reguliavimo ypatybes.

Dabartiniame darbe įvertinome tikimybę, kad nekonservuotos lincRNR yra susijusios su sudėtingu kardiometaboliniu požymiu ir ar tai primena konservuotų lincRNR asociacijų modelį, ar skiriasi nuo jo. Tai apėmė išsamų daugelio didelių metaanalizių genomo masto asociacijos tyrimo (GWAS) duomenų apibendrinimą dėl 8 su kardiometabolinėmis ligomis susijusių požymių: juosmens ir klubų santykio, pakoreguoto pagal kūno masės indeksą (WHRadjBMI), kūno masės indeksą (KMI). , 16–20 ūgio, 21 DTL (didelio tankio lipoproteinų) cholesterolis, MTL (mažo tankio lipoproteinų) cholesterolis (MTL-C), trigliceridai, 22 vainikinių arterijų liga (ŠKL), 23 ir 2 tipo cukrinis diabetas. 24 LincRNR apklausai panaudojome gerai apibrėžtą ir išsamų daugiau nei 7000 kelių egzonų lincRNR rinkinį, kuris buvo griežtai pažymėtas (GENCODE leidimas 33 – GRCh38.p13). 25 Apsauga buvo apibrėžta naudojant kelias skirtingas strategijas, pirmiausia pagrįsta plačia sintezės arba pozicinio genomo išsaugojimo perspektyva, 2, 3, 26, 27 su antrine papildomos informacijos apie ekspresiją pelių audiniuose įtraukimu 25 ir žvalgomuoju išsaugojimo svarstymu, pagrįstu bazinės poros sekos balas. 28 Mūsų analizė atskleidė, kad (1) nekonservuotos lincRNR susieja su kardiometaboliniais požymiais tokiu greičiu, kuris atitinka konservuotas lincRNR (2) šie radiniai išlieka įvairiuose išsaugojimo apibrėžimuose ir (3) apskritai visuose bruožuose, maždaug trečdalyje GWAS. susijusios lincRNR yra nekonservuotos, o tai padidėja iki maždaug dviejų trečdalių, naudojant griežtesnį išsaugojimo apibrėžimą.

Medžiagos ir metodai

Anonimizuoti duomenys ir medžiaga renkami iš esamų viešai prieinamų saugyklų, kaip nurodyta toliau.

Duomenų priedo I paveiksle pateikta schematiškai pavaizduota, kaip apibrėžiama sintezė, ir apibendrinamas mūsų analizės vamzdynas. Čia aprašomi pagrindiniai duomenų rengimo ir analizės aspektai. Papildomų metodų aprašymas, įskaitant genų rinkinio praturtinimo analizę, pateiktas duomenų priedo dalyje Medžiaga ir metodai.

Duomenų ir kodų prieinamumas

Visi duomenys, naudojami atliekant šio straipsnio analizę, yra viešai prieinami nurodytose svetainėse. Kodą galima gauti atitinkamam autoriui paprašius.

Apsaugos nustatymas

Konservavimas, pagrįstas sinteze

LincRNR su ekspresija žmogaus audiniuose buvo identifikuotos naudojant Human Gencode v33 geno anotaciją build hg38 25 ir buvo priskirtos tarpgeninėms, jei lincRNR pradžios ir pabaigos vietose nebuvo baltymų koduojančio geno (PCG) pradžios ar pabaigos vietų. Pirminei analizei lincRNR buvo išsaugota, jei ji buvo sinteninė, ir nekonservuota, jei ji nebuvo sinteninė. LincRNR buvo apibrėžtos kaip sintetinės, jei (1) artimiausių prieš srovę ir pasroviui gretimų žmonių PCG buvo vienas su vienu pelių homologai, remiantis Ensembl genomo duomenų bazės leidimu 47, ir (2) homologai buvo toje pačioje chromosomoje su nuoseklia santykine orientacija. ant Mouse Gencode v24 25. Kaimynai buvo apibrėžti kaip 900 kb atstumu nuo lincRNR pradžios ir pabaigos, kaip aprašyta anksčiau. 2

LincRNR pogrupis (18, 5%), neturintis 2 gretimų PCG šiame regione, buvo priskirtas nebuvusiems kaimynams ir nebuvo klasifikuojamas kaip sinteninis ar nesinteninis. Be to, nedideliam lincRNR pogrupiui (1, 2%), kurie turėjo prieš ir pasroviui skirtus pelės homologus, bet su nenuoseklia PCG orientacija tarp žmogaus ir pelės homologų, lincRNR buvo priskirta nenuosekliai orientuotai ir nebuvo įtraukta į vėlesnį modeliavimą. Santykinės 2 lincRNR pelių homologų orientacijos nustatyti nepavyko, nes jų nebuvo Mouse Gencode v24, todėl šios lincRNR buvo nurodytos kaip neturinčios kaimynų. Šis klasifikavimo metodas apibendrintas duomenų priedo I paveiksle (viršuje).

Konservavimas, pagrįstas sinteze ir raiška

Antrinei analizei buvo taikomi alternatyvūs lincRNR išsaugojimo apibrėžimai. LincRNR buvo laikoma konservuota, jei ji buvo sintetinė pelės genomo lygiu ir taip pat buvo išreikšta pelės audiniuose, kaip apibrėžta Mouse Gencode v24. LincRNR buvo nekonservuota, jei ji buvo sinteninė, bet nebuvo išreikšta pelės audiniuose arba ne sinteninė pelėje. Sinteninės lincRNR buvo apibrėžtos kaip išreikštos, jei lincRNR buvo pelėje tarp 2 nustatytų PCG homologų, remiantis Mouse Gencode v24. Sinteninės lincRNR su persidengiančiais pelių homologais pagal šį išsaugojimo apibrėžimą nebuvo klasifikuojamos.

Apsauga, pagrįsta sekų balais

Galiausiai, kaip tiriamąją analizę, taikant sekos lygio metodą išsaugojimui nustatyti, apskaičiavome 7 krypčių phastCons balus 28 kiekvieno lincRNR nuorašo transkripcijos pradžios vietos 200 bp regionui. Buvo apskaičiuotas transkripcijos pradžios vietos regiono vidurkis, o didžiausias visų lincRNR nuorašų skaičius buvo naudojamas kaip alternatyvi išsaugojimo priemonė.

LincRNR sujungimas

Norint tikslingai tirti lincRNR su GWAS suvestiniais duomenimis, lincRNR ribos buvo išplėstos 5 kb, įtraukiant vieno nukleotido polimorfizmus (SNP) kanoniniuose 5′ promotoriuose ir 3′ UTR (neverčiamos srities) reguliavimo regionuose. Gautos persidengiančios lincRNR toje pačioje grandinėje buvo konsoliduotos ir traktuojamos kaip viena lincRNR. Tuo atveju, kai persidengiančios lincRNR buvo priešingose ​​gijose, teigiamos (+) grandinės lincRNR buvo išlaikyta, o neigiamos (-) grandinės lincRNR buvo pašalinta. Sujungiant lincRNR buvo taikomos šios sprendimo taisyklės: (1) jei kuri nors iš sujungtų lincRNR buvo sinteninė, nauja sujungta lincRNR buvo klasifikuojama kaip sinteninė (2), jei nė viena iš lincRNR nebuvo sintetinė, bet bent 1 buvo nesinteninė, nauja sujungta lincRNR buvo klasifikuojama kaip nesinteninė (3), jei nė viena nebuvo sinteninė arba nesinteninė, bet bent 1 buvo nenuoseklios orientacijos, nauja sujungta lincRNR buvo klasifikuojama kaip nenuosekli orientacija ir (4) visais likusiais atvejais naujos sujungtos lincRNR buvo klasifikuojamos kaip nesant kaimynų. Antriniam išsaugojimo apibrėžimui buvo taikomas panašus metodas, kai sintetika pakeičiama sintene ir išreikšta, o galutinė kategorija įtraukiama pagal sutampančius homologus. Sujungtos lincRNR pašalinamos iš tiriamosios analizės, pagrįstos phastCons. LincRNR sujungimo metodas pateiktas I paveiksle duomenų priede (apačioje kairėje).

GWAS duomenų parinkimas ir signalo nustatymas

Kardiometabolinių požymių GWAS suvestinės duomenų rinkiniai su dideliu dalyvių skaičiumi buvo atrinkti siekiant suteikti statistinę galią įvertinti konservuotų ir nekonservuotų lincRNR susiejimą su liga. Ūgis buvo įtrauktas, nes tai yra sudėtingas genetinis požymis, turi didelius GWAS mėginių dydžius, o pastaraisiais metais buvo įrodyta, kad ūgis siejasi su aterosklerozinės širdies ir kraujagyslių ligos priežastiniais keliais. 29 SNP buvo susieti nuo hg19 iki hg38 naudojant LiftOver (//genome.ucsc.edu/cgi-bin/hgLiftOver). Jei minimalus SNP lygis P lincRNR (± 5 kb, kaip nurodyta aukščiau) buvo mažesnė už atitinkamą slenkstį (pateikta 1 lentelėje), lincRNR buvo klasifikuojama kaip turinti GWAS signalą. WHRadjBMI ir KMI – minimalus P buvo nustatytas atliekant vyrų, moterų ir vyrų bei moterų metaanalizę kartu. Visais kitais atvejais rezultatai buvo pagrįsti vyrų ir moterų metaanalizės rezultatais. Guanino citozino (GC) kiekis buvo apskaičiuotas naudojant sekos duomenis iš Human Gencode v33. Kiekvienos lincRNR egzonai buvo nustatyti ir sujungti, jei sutampa, o GC kiekis buvo apibrėžtas kaip Gs ir Cs dalis egzonų sekose. Perkeliamo elemento (TE) aprėptis buvo apibrėžta kaip lincRNR egzonų sekų, kurios sutampa su TE, dalis. Šiam skaičiavimui TE tipų LINE (ilgai įsiterpęs branduolinis elementas), SINE (trumpas įsiterpęs branduolinis elementas), LTR (ilgas galinis kartojimas) ir DNR padėtys buvo identifikuotos naudojant Kalifornijos universiteto Santa Kruzo genomo naršyklės kartojimo maskuoklį. 30

Statistinė analizė

Pirminis rezultatas buvo GWAS signalas, apibrėžtas kaip minimalaus SNP lygio rodiklis P lincRNR (± 5 kb, kaip nurodyta aukščiau) buvo mažesnė už iš anksto nustatytą slenkstį (1 lentelė). Apsauga buvo apibrėžta remiantis sinteze pirminei analizei ir pagrįsta sinteze ir išraiška antrinei analizei. Pateikiamos atitinkamai konservuotų (·) ir nekonservuotų (·) lincRNR proporcijos su GWAS signalu. Neprastumo testas, pateiktas lyginant su . A atitinkamas P<0,05 buvo laikoma statistiškai reikšminga ir siūlė, kad nekonservuotų lincRNR, turinčių GWAS signalą, dalis nebuvo reikšmingai mažesnė nei konservuotų lincRNR su GWAS signalu dalis nekoreguotos analizės metu.

1 lentelė. Genomo masto asociacijos tyrimo duomenų išteklių santrauka

* Vidutinis SNP skaičius lincRNR ir tarpkvartilinis diapazonas (25–75 procentilis).

† Signalo slenkstis buvo nustatytas į 5 × 10 -8 analizuojant GIANT/UKBb ir DIAGRAM duomenis, kad būtų galima ištaisyti kelis palyginimus. A less stringent but still suggestive threshold of 5×10 −6 was used for the analysis of GLGC and cardiogram data as the sample size, and, therefore, the power for detecting association is lower in these settings. BMI indicates body mass index CAD, coronary artery disease Cardiogram, Coronary Artery Disease Genome Wide Replication and Meta-Analysis DIAGRAM, Diabetes Genetics Replication and Meta-Analysis GIANT, Genetic Investigation of Anthropometric Traits GLGC, Global Lipids Genetics Consortium HDL, high-density lipoprotein LDL, low-density lipoprotein LincRNA, long intergenic noncoding RNA SNP, single-nucleotide polymorphism T2D, type 2 diabetes TG, triglyceride UKBb, UK Biobank and WHRadjBMI, waist-to-hip ratio adjusted for body mass index.

Additionally, multivariable logistic regression models were fitted separately for each trait and adjusted for the number of SNPs (natural log-transformed), GC content (natural log-transformed), and TE coverage. LincRNAs were treated as the unit of analysis, and data were limited to lincRNAs that were classified as conserved or not conserved. Wald tests of a difference in the probability of GWAS signal between conserved and nonconserved lincRNAs based on adjusted models are reported. Odds ratios and corresponding 95% CIs corresponding to the odds of GWAS signal for conserved lincRNAs compared with the odds of GWAS signal for nonconserved lincRNAs are also provided. The estimated probabilities of GWAS signal for conserved and nonconserved lincRNAs and the corresponding prediction interval were determined based on the multivariable fitted logistic model. A summary of the statistical analysis approach is provided in Figure I in the Data Supplement (right).

Results

Descriptive Characteristics of lincRNAs

Publicly available GWAS summary data used in the analysis are summarized in Table 1 and included WHRadjBMI and BMI, 18 height, 21 HDL cholesterol, LDL-C, and triglycerides, 22 CAD, 23 and type-2 diabetes. 24 Table 2 illustrates the distributions of transcript length, GC content, exon count, and TE coverage for lincRNAs that are classified as conserved or nonconserved (defined based on synteny as described in Methods). Summary data are reported as medians and interquartile ranges as these measures are robust to skewness in the data. Information on lincRNAs unclassified due to the absence of a PCG upstream or downstream (or both) or with inconsistent PCG relative orientation is provided in Table I in the Data Supplement.

2 lentelė. Characteristics of Conserved and Nonconserved lincRNAs

GC indicates guanine-cytosine GWAS, genome-wide association study lincRNA, long intergenic noncoding RNA SNP, single-nucleotide polymorphism TE, transposable element and WHRadjBMI, waist-to-hip ratio adjusted for body mass index.

* Median and interquartile range (25th to 75th percentile) across lincRNAs within corresponding category.

† Summary results for the number of SNPs per lincRNA and number of SNPs divided by lincRNA length are based on a subset of n=7011 lincRNAs and GWAS SNPs for WHRadjBMI (Table 1).

Conserved lincRNAs tend to be longer than nonconserved lincRNAs, and this difference is more pronounced when expression in mouse is considered (median length: syntenic lincRNAs, 159 60 bps nonsyntenic lincRNAs, 15 851 bps syntenic and expressed lincRNAs, 19 120 bps syntenic and not expressed or nonsyntenic lincRNAs, 14 721 bps). Moreover, unclassified lincRNAs tend to be significantly longer with a lower GC content and higher TE coverage (Table I in the Data Supplement). The number of SNPs per lincRNA (based on WHRadjBMI data) tracks with the length of the lincRNA, so that the distribution of the number of SNPs divided by lincRNA length is approximately the same in all categories. Overall, these findings support the use of multivariable adjusted analyses including these variables as potential confounders in characterizing the relationship between lincRNA conservation and GWAS signal.

Analysis Using Primary Definition of Conservation Based on Synteny

The counts and percentages of lincRNAs by conservation and GWAS signal are provided in Table 3. In this unadjusted analysis based on the primary definition of conservation, the estimated proportion of lincRNAs with GWAS signal for nonconserved lincRNAs is less than the corresponding proportion for conserved lincRNAs for BMI (6.2% versus 6.9% noninferiority P>0.05) and height (16.8% versus 18.8% noninferiority P>0.05) while this estimated proportion is greater in nonconserved compared with conserved lincRNAs for WHRadjBMI (5.7% versus 5.0% noninferiority P<0.01), HDL cholesterol (1.0% versus 0.7% noninferiority P<0.001), LDL-C (1.2% versus 0.6% noninferiority P<0.001), triglycerides (1.1% versus 0.7% noninferiority P<0.001), CAD (0.6% versus 0.4% noninferiority P<0.001), and type-2 diabetes (1.6% versus 1.1% noninferiority P<0,001).

3 lentelė. Genome-Wide Association Study Signal Counts by Trait and Conservation (Unadjusted Analysis)

BMI indicates body mass index CAD, coronary artery disease HDL, high-density lipoprotein LDL, low-density lipoprotein T2D, type 2 diabetes TG, triglyceride and WHRadjBMI, waist-to-hip ratio adjusted for body mass index.

* Test of noninferiority is based on δ=0.01.

Overall, these findings suggest that it is as likely for nonconserved lincRNAs as for conserved lincRNAs to include a GWAS-associated SNP. In addition, a substantial number of GWAS-associated lincRNAs are not conserved, as indicated by the column percentages in Table II in the Data Supplement. For example, 80 of 290 (27.6%) lincRNAs with a GWAS signal for WHRadjBMI are nonconserved. The percentage of GWAS-associated lincRNAs that are not conserved ranges from 20% (for height) to 36.8% (for LDL-C).

Multivariable Models

The results of multivariable modeling (Table 4 Figure Figures II and III in the Data Supplement) are consistent with findings of unadjusted analyses with the exception that the predicted probability of GWAS signal for BMI is now slightly higher for nonconserved compared with conserved lincRNAs. The corresponding adjusted estimated odds ratio of conserved, relative to nonconserved, lincRNA association with traits is <1 for all traits except height (P<0.05 for LDL-C P>0.05 for all other traits) and ranges from 0.451 (95% CI, 0.231–0.878) for LDL to 1.126 (95% CI, 0.947–1.338) for height.

4 lentelė. Multivariable Adjusted Model Estimates for Effect of Conservation on GWAS Signal by Trait

BMI indicates body mass index CAD, coronary artery disease GWAS, genome-wide association study HDL, high-density lipoprotein LDL, low-density lipoprotein lincRNA, long intergenic noncoding RNA OR, odds ratio SNP, single-nucleotide polymorphism T2D, type 2 diabetes TE, transposable element TG, triglyceride and WHRadjBMI, waist-to-hip ratio adjusted for body mass index.

* Separate multivariable models are fitted for each trait. Models are adjusted for number of SNPs (natural log-transformed), guanine-cytosine (GC) content (natural log-transformed), and TE coverage. In the model for the WHRadjBMI signal with conservation defined based on synteny, the OR corresponding to a 1-unit change in natural log GC content is 3.20 ([95% CI, 1.36–7.48] P=0.007) and the OR for 1 unit change in TE coverage is 0.837 ([95% CI, 0.522–1.35] P=0.459). This suggests that GC content is significantly associated with the probability of a GWAS signal for WHRadjBMI. Adjustment for these additional covariates supports the unadjusted finding that the likelihood for a nonconserved lincRNA to include a GWAS signal SNP is similar to that of a conserved lincRNA.

Paveikslas. Predicted probabilities of genome-wide association study (GWAS) signal for conserved and nonconserved long intergenic noncoding RNAs (lincRNAs). Predicted probabilities and corresponding 95% prediction intervals are calculated based on multivariable models using average of observed median values for guanine-cytosine content and transposable element coverage and observed trait-specific median number of single-nucleotide polymorphisms. The predicted probability of GWAS signal is greater for nonconserved lincRNAs than conserved lincRNAs for all traits considered except height based on the primary definition of conservation. The results based on the secondary definition of conservation are consistent though in this case, the predicted probably of GWAS signal is greater for nonconserved lincRNAs than conserved lincRNAs for all traits including height (results not shown). The consistently overlapping CIs suggest that the likelihood of GWAS association for conserved and nonconserved lincRNAs is comparable, and, therefore, the traditional metrics of conservation for prioritizing long noncoding RNAs for functional studies needs to be reconsidered. CAD indicates coronary artery disease HDL, high-density lipoprotein LDL, low-density lipoprotein T2D, type-2 diabetes and WHRadjBMI, waist-to-hip ratio adjusted for body mass index.

Illustrative Examples

As illustrative examples, Figure IV in the Data Supplement presents locus plots for several examples of genetic loci containing nonconserved and conserved lincRNAs that are associated with CAD and WHRadjBMI—2 well-studied and clinically important cardiometabolic traits.

Secondary Analysis Using Alternative Definitions of Conservation

Using the secondary definition of conservation that requires lincRNA expression in mouse and human, as well as synteny, the predicted probability of GWAS signal is higher in nonconserved lincRNAs compared with conserved lincRNAs for all traits (P<0.05 for BMI, height, and LDL-C P>0.05 for all other traits Table 4 Figure III in the Data Supplement). Notably, for both definitions of conservation, the point estimate for the probability of GWAS signal is consistently greater in nonconserved lincRNAs compared with conserved lincRNAs. Although this difference is not statistically significant for most traits considered individually, the overall trend suggests that the notion that GWAS signal would be lower in nonconserved regions needs to be reconsidered. Similar to the first definition of conservation, a substantial number of GWAS-associated lincRNAs are not conserved based on the secondary definition (Table II in the Data Supplement). In this case, 173 of 289 (59.9%) GWAS-associated lincRNAs for WHRadjBMI are nonconserved. This percentage of GWAS-associated lincRNAs that are not conserved, based on the secondary definition, ranges from 59.6% (for height) to 70.8% (for CAD).

Additional Analyses

To compare the strength of lincRNA GWAS signals, we plotted the density of the maximum within lincRNA SNP-level Z score among trait-associated lincRNAs for conserved and nonconserved lincRNAs using our primary syntenic definition of conservation (Figure V in the Data Supplement). No apparent trend is observed to suggest that the magnitude of the association signal in conserved lincRNAs is greater than nonconserved lincRNAs.

To probe features of lincRNAs that were unclassified in our primary syntenic definition of conservation (ie, the 18.5% lincRNAs that lack 2 neighboring PCGs within 900 kb of their start and end positions), counts and associated models comparing the set of unclassified lincRNAs to lincRNAs that are classified as either conserved or nonconserved are provided in Tables III and IV in the Data Supplement. These results generally suggest a lower probability of GWAS signal in more isolated genomic regions within which the majority of unclassified lincRNAs is found.

In exploratory analysis of sequence-level conservation, the distribution of lincRNA level phastCons scores by GWAS association for WHRadjBMI and CAD are provided in Figure VI in the Data Supplement. For lincRNAs associated with compared with lincRNAs not associated with these traits, the median phastCons score is higher in lincRNAs associated with WHRadjBMI (Wilxocon rank-sum test, P<0.001, left) but not lincRNAs associated with CAD (Wilxocon rank-sum test, P=0.310, right). Although there is a statistically significant difference in the median phastCons score for WHRadBMI, the distribution of phastCons for WHRadjBMI-associated lincRNAs ranges from 0 to 1 with a large proportion of relatively low scores and a low average phastCons score for WHRadjBMI, as well as for CAD-associated lincRNAs.

To explore lincRNA regulatory and functional features, we examined whether neighboring PCGs of conserved and nonconserved disease-associated lincRNAs were enriched in different pathways that might hint at differences in their regulatory functions in cardiometabolic traits. Using WHRadjBMI as an example, we performed pathway-based analysis using the Database for Annotation, Visualization and Integrated Discovery (https://david.ncifcrf.gov/) 31,32 based on neighboring PCGs of trait-associated conserved and nonconserved lincRNAs. Each interrogation of the Database for Annotation, Visualization and Integrated Discovery categories showed similar findings, so we present the results from UniProt Keyword (UP_Keyword) annotations in Table V in the Data Supplement. For WHRadjBMI-associated lincRNAs, biological processes were different for PGCs at conserved versus those at nonconserved lincRNAs—PCG neighbors of conserved lincRNA are significantly enriched in transcriptional regulation and DNA binding, whereas PCG neighbors of nonconserved lincRNA enrich for major histocompatibility complex I, immunity, and cell division.

Diskusija

A large portion of human lncRNAs lack conservation yet, emerging evidence suggests nonconserved lncRNAs are functional. 1,4–15,26,33,34 Motivated by this, we evaluated the likelihood that nonconserved lincRNA loci have genetic association with complex human cardiometabolic traits and compared this to the pattern of association for conserved lincRNAs. Focusing on 8 established cardiometabolic disease–related traits, 35,36 we found that nonconserved lincRNAs have a similar likelihood of associating with cardiometabolic traits as conserved lincRNAs and that this association was broadly consistent across different definitions of conservation and different cardiometabolic traits. Moreover, approximately one-third of trait-associated lincRNA loci were nonconserved based on a syntenic definition of conservation and closer to two-thirds were not conserved based on a more rigorous definition that included both synteny and expression in mouse. These findings suggest that the traditional notion of conservation driving prioritization for functional and translational follow-up of human cardiometabolic genomic discoveries may need to be revised in the context of the abundance of nonconserved lincRNAs in the human genome and their apparent predilection to associate with complex disease traits.

Species conservation, at DNA and protein sequence levels, has been considered an important feature, and often used for primary triage, when determining whether a PCG is likely to be functional. This perspective is reinforced by decades of using model organisms, particularly mouse genetic models, relative to human or primate studies, to study in vivo function. However, a primary focus on conservation and use of mouse models may be to deprioritize important genetic signals for human diseases when considering genomic and regulatory features, including alternative splicing, tissue-specific enhancers, and lincRNAs, that are prominent features of primate evolution. 37 Although the protein-coding genome is largely conserved between primates and nonprimates, many cell-specific regulatory features are not conserved outside primates. This should not be altogether surprising because the specialized cell and organ functions that have emerged with primate evolution cannot be explained by changes in numbers of PCGs. This lack of conservation is particularly marked for lincRNAs, and our work 26,27 and that of others 2,3 suggests that the majority of human lincRNAs is not conserved in mice.

An alternative measure of conservation that is applied to PCGs is base-pair sequence homology. 4,38 However, human lincRNAs that are syntenic, expressed in mouse tissues, and functionally conserved often have limited nucleotide sequence homology across species. 2–4 For this reason, we focus in this work on genomic synteny between human and mouse as a primary measure of conservation. In our exploratory analysis of sequence conservation, while the central tendency of phastCons scores is higher in WHRadjBMI-associated lincRNAs compared with nonassociated lincRNAs, the low average phastCons score for WHRadjBMI- and CAD-associated lincRNAs, relative to PCGs, confirms a low sequence-level conservation for trait-associated lincRNAs. This suggests poor utility of sequence-level conservation scores in discriminating disease-associated from non–disease-associated lincRNAs.

While it has been proposed that many nonconserved lncRNA molecules that are identified through RNA sequencing technologies may be nonfunctional, several lines of evidence suggest that this is not the case. Genomic markers of function including tissue-enrichment, binding of tissue-specific transcription factors at lncRNA enhancers and promoters, and regulation in response to physiological stressors do not differ significantly between conserved and nonconserved myeloid and other tissue lincRNAs. 26,27,39,40 Several groups have also published genomic criteria, not dependent simply on conservation, and experimental methods, including CRISPR (clustered regularly interspaced short palindromic repeats) screens, to predict lncRNA functionality and prioritize candidates. 1,4,5,9 Multiple examples have emerged of lincRNAs that overlap loci for human cardiometabolic traits, 1,12,15 including ANRIL, H19, MALAT1, MEXIS, LOC157273, ir LASER. 6–8,10,11,13,14 Of these, there are several examples of conserved (syntenic) lincRNAs including MALAT1 ir LOC157273 (RP11-10A14.4). There are also examples of functionally characterized nonconserved lincRNAs at loci for cardiometabolic disease traits despite limited functional studies including H19, which also has been shown to have higher plasma levels of H19 in patients with CAD. 34

In a recent prepublication, the GTEx (Genotype-Tissue Expression) consortium performed colocalization analysis connecting genetic variation, gene expression, and traits for a set of 690 human lncRNAs by integrating results from GWAS for 48 traits and expression quantitative trait loci for 48 tissues in the latest GTEx v8 data. 1 Of 4694 significant expression quantitative trait loci GWAS SNP colocalization events for these lncRNAs and traits, a striking 80% lacked any colocalization with PCGs. 1 Although the GTEx work did not focus on measures of lncRNA conservation, our current findings suggest that a large proportion of lncRNAs that colocalize at loci for complex cardiometabolic traits lacks conservation in mice. Further, many primate-specific lincRNAs, not found in rodents or other model organisms, have emerged as important regulators in cellular processes, such as pluripotency and differentiation, and as noted above, several have been implicated in human cardiometabolic disorders. 5,26,41–44 These data and our exploratory finding of differences in gene-pathway enrichment for neighboring PCGs suggest there may be utility in considering regulatory and functional features, as well as disease association, rather than an initial triage using conservation, to identify and prioritize human lincRNAs for translational study.

A reluctance to study nonconserved lncRNAs also may hamper the development of rigorous and reproducible model systems to address pathophysiological functions of nonconserved lncRNAs and other genomic elements. Recent advances in tissue engineering have established stem cell–based organoids as near-physiological systems to study human physiology and diseases. 45,46 Modulation of PCGs and microRNAs by RNAi (RNA interference) or transgene have been used in nonhuman primates in translational or preclinical studies. However, nonhuman primates are scarce and costly, limiting feasibility. Much work on functional models is needed including transgene approaches that can express primate-specific lincRNAs in nonprimate animal models—indeed, a few studies show that protein or RNA partners of such lincRNAs are conserved and can interact with primate-specific lincRNAs in nonprimate models. 41 Bacterial artificial chromosome transgene mouse models can include the gene body and large fragments of genomic regulatory DNA of nonconserved lincRNA loci to drive human lincRNA expression in mouse models in vivo. 47 An additional in vivo approach is to engraft human cells expressing primate-specific lincRNAs in rodent models with immune deficiency as has been used to study the roles of human lincRNA in tumor development and metastasis. 48,49

In our analyses, a substantial subset of lincRNAs (18.5%) were characterized as unclassified in terms of synteny because they lacked PCG within the published range of 900 kb 2 that we applied to examine PCGs upstream or downstream of a given lincRNA. These unclassified lincRNAs tend to be longer with a lower GC content and higher TE coverage relative to classified lincRNAs (Table I in the Data Supplement). Using an established minimum-range cut point for gene deserts of absence of a PCG within 250 kb upstream and 250 kb downstream, 50–52 55.1% of unclassified compared with 7.3% of classified lincRNAs reside within gene deserts. Gene deserts, and lincRNAs within such regions, are enriched in ancient duplications, have lower GC content and lower conservation than other parts of the human genome, and may have specific long-distance cis- ir trans-regulatory functions related to their unique evolutionary and genomic characteristics. 50–52 Although unrelated to our primary focus on the role of lincRNA conservation in human complex diseases, further study of these unique unclassified lincRNAs in gene deserts is of interest to the field. Indeed, there are well-recognized loci in gene desert that associate with complex traits at GWAS including the 9p21 locus with CAD and type-2 diabetes 53 and the 8q24 locus with several cancers . 54 Our analyses, however, suggest a lower probability of GWAS signal for unclassified lincRNAs that lie in more isolated genomic regions and gene deserts compared with classified lincRNAs (Tables III and IV in the Data Supplement).

Mūsų tyrimas turi keletą apribojimų. For example, there are no established standards in the field regarding the definition of lincRNA conservation, and, therefore, we chose somewhat arbitrary, although previously published, 2,3,26,27 definitions of synteny. For example, we excluded certain lincRNAs that lacked PCGs within 900 kb of lincRNAs. We also merged overlapping lincRNAs, and this may not accurately reflect the precise lincRNA and isoform expression in individual tissues or across tissues. Although GENCODE as a resource for lincRNAs is widely used and well cross-validated, it may lack sensitivity to many lncRNAs as expression of some functional lincRNAs can be highly context specific and found at low levels and therefore missed in the GENCODE resource. Indeed, our group 26,27 and others 55 have published such findings in several prior articles. Although our trait selection is comprehensive, we did not interrogate an all-encompassing set of cardiometabolic traits. Rather, we focused primarily on traits with adequately powered GWAS datasets that provided sufficient numbers of trait-associated SNPs in both conserved and nonconserved lincRNAs. In addition, our use of large SNP-based GWAS datasets rather than whole genome data did not permit interrogation or rare functional variation and lincRNA exonic regions and did not provide the level of coverage required for a fine-mapping subset analysis focused on SNPs within exons and introns. As larger whole genome datasets emerge, there will be opportunities to focus on rare functional variations in lincRNAs, as well as analysis that can weight for enriched signals in 5′, 3′, exonic, and intronic SNPs and regions of lincRNAs.

In conclusion, we found that nonconserved lincRNAs have a nontrivial and consistent likelihood of association with a broad array of complex cardiometabolic traits. Indeed, we found that nonconserved lincRNAs associate with cardiometabolic traits at a rate that is consistent with conserved lincRNAs, that these findings are robust across different definitions of conservation, and strikingly that across all traits as much as two-thirds of GWAS-associated lincRNAs may be nonconserved depending on the definition applied. Given these findings, computational, high-throughput functional and human pathophysiological approaches, 1, 4, 5, 9 rather than traditional metrics of conservation, should be applied to prioritize lncRNAs for functional studies. Expansion of research strategies using nontraditional model systems is urgently required to address physiological and pathophysiological functions of nonconserved lncRNAs and other genomic elements in human cardiometabolic disorders.


Žiūrėti video įrašą: Tutorial Part 2 Haplotyping (Rugpjūtis 2022).