I 2018 foreslo Lewin et al det ambisiøse målet å sekvensere et referansegenom for hver eukaryotisk art på jorden innen 10 år, kalt «moonshot of biology». Dette forslaget førte til etableringen av Earth Biogenome Project (EBP), som fikk stor oppmerksomhet og fart i etterkant. Dette førte til etableringen av flere genomprosjekter over hele verden og i Europa, som vår gruppe også bidro til, for eksempel BGE, ERGA og InvertOmics. I 2022 ble klokken offisielt satt til 2020, og fremdriften skal skje i tre faser. Mer spesifikt:
“Fase I: Et annotert referansegenom for én representant for hver taksonomisk familie av eukaryoter (~9 400 arter) i løpet av 3 år.
Fase II: Referansegenomer for én representant for hvert slekt (~180 000 arter) i løpet av år 4 til 7.
Fase III: Referansegenomer for de forblirende ~1,65 millioner kjente eukaryote artene i de siste 3 årene av prosjektet.» (Lewin et al, 2022)
I år er vi altså halvveis i EBP, eller hvis vi tar 2022 som det egentlige startpunktet, er vi ved slutten av fase 1. Hva er da status for det «moonshot of biology», og hvor ligger utfordringene?
I en nylig oppdatert artikkel uttalte Blaxter et al. at «Ved utgangen av 2024 hadde EBP-tilknyttede prosjekter offentliggjort 2000 høykvalitets genomsekvenser, som representerer mer enn 500 eukaryote familier. I denne artikkelen presenterer vi et revidert sett med mål for fase I og II av EBP. For fase II foreslår vi å generere referansegenomer for 150 000 arter over fire år, inkludert representative genomer for minst 50 % av alle aksepterte slekter og for ytterligere arter av biologisk og økonomisk betydning.» Vi ser altså at målene ikke ble nådd, og at vi til og med er langt fra målene for noen av taksaene. For eksempel mangler det per 03.12.2025 innenfor Lophotrochozoa kromosomnivågenomer i NCBI og på GoaT for phyla Phoronida, Dicyemida, Orthonectida, Gastrotricha, Gnathostomulida, Micrognathozoa, Entoprocta og Cycliophora (se figuren ovenfor som viser forekomsten av genomer innenfor Lophotrochozoa).

Howard et al. gjennomgikk fremgangen og utfordringene med DToL og viste at et tilbakevendende problem var tilgjengelig mengde vev i forhold til genomstørrelse på tvers av alle eukaryote riker. Fremgangen har så langt hovedsakelig blitt oppnådd ved å sekvensere relativt lett håndterbare arter, som større individer blant virveldyr, planter og leddyr. I en nylig publisert nyhetsartikkel blir AI presentert som verktøyet som kan løse alle problemene knyttet til manglende fremgang i genomprosjektene. Dette er kanskje ikke så overraskende i dag, men er KI virkelig løsningen på problemene?

I vår gruppe retter vi oss hovedsakelig mot slike utfordrende taksa selv, da de større konsortiene foreløpig ikke prioriterer slike taksa for å kunne oppnå målene som er avtalt med finansieringskilder. Til tross for noen fremskritt, som vi oppnådde ved å bruke protokoller som amplifiserer hele genomer, opplevde vi også noen store tilbakeslag. I mellomtiden har vi forsøkt å oppnå genomer av høy kvalitet (men ikke på kromosomnivå) for 33 små arter fra 11 fyla. Med ulik suksess på tvers av de forskjellige fylaene (se figur ovenfor), mens vi så langt har hatt 100 % suksessrate for de få store artene vi har prøvd.
Gitt dette større datasettet, gravde vi nå dypere i mulige parametere som bestemmer suksessen til genomsekvensering i slike taksa. For å gjøre en lang historie kort, er det to hovedfaktorer som kom frem. Den første var forurensning. En høy grad av forurensning korrelerte med lav BUSCO-score og dermed lav gjenvinning av målgenomet. Dette skyldes mest sannsynlig ikke det faktum at prøvene hadde store mengder forurensende bakterier og lignende. Alle prøvene besto av bare ett enkelt eksemplar, som var nøye rengjort og inneholdt et absolutt minimum av omgivende vann (mindre enn 1 µl). Derfor burde vertsvevet veie langt tyngre enn forurensningen. Prokaryotisk (bakteriell) DNA er imidlertid nakent, det vil si at det ikke er dekket av proteiner som eukaryotisk DNA. Derfor er det lettere å amplifisere når DNA-ekstraksjonen fra verten ikke var god nok. Dette førte relativt raskt til en amplifiseringsskjevhet mot forurensningen. Den andre var store genomer gitt den lille mengden vev. Denne situasjonen resulterte i lav forurensning, men bare middels BUSCO-score og svært fragmenterte genomsekvenser.
Vi jobber nå med begge faktorene ved å forbedre DNA-ekstraksjonsmetodene for å oppnå renere (og spesielt nakent) DNA fra det eukaryote målvevet og sekvensere genomene dypere om nødvendig. De første resultatene viser lovende fremgang, men optimaliseringen av DNA-ekstraksjonen kan fortsatt være vanskelig og kreve justeringer for forskjellige fyla eller dyregrupper. Dypere sekvensering kan også bety betydelig dypere enn de vanligvis anbefalte 20-30x for PacBio HiFi-sekvensering. Vi utforsker nå sekvensering så dypt som 60x. Selv om KI definitivt kan være til stor hjelp i alle trinn etter sekvensering, spesielt når det gjelder å lukke annotasjonsgapet, er det ikke den primære løsningen på de første utfordringene knyttet til forbedrede laboratorieprotokoller. KI kan hjelpe til med eksperimentell design her, men til sist og syvende må arbeidet utføres i laboratoriet av høyt utdannede forskere med de riktige ferdighetene for dette arbeidet.
Translated from the English version with DeepL.com (free version)
![]()