600 milionów kształtów w rekordowym czasie, czyli sztuczna inteligencja w akcji

Narzędzie znane jako ESMFold jest w stanie przewidywać kształty przyjmowane przez białka, odtwarzając te struktury w 3D. Jego wydajność jest naprawdę imponująca.
600 milionów kształtów w rekordowym czasie, czyli sztuczna inteligencja w akcji

To istotna wiadomość, ponieważ naukowcy zamierzają wykorzystać tę technologię na przykład do projektowania nowych leków, charakteryzowania cech drobnoustrojów i śledzenia powiązań ewolucyjnych między odległymi gatunkami.

Czytaj też: Sztuczna inteligencja znalazła nowy sposób na wykonywanie obliczeń

ESMFold nie jest rzecz jasna pierwszym oprogramowaniem do przewidywania kształtów białek. W 2022 roku firma DeepMind ogłosiła, że jej AlphaFold odczytało kształty około 200 milionów białek znanych nauce. ESMFold, choć nieco mniej dokładne niż AlphaFold, to jednocześnie 60-krotnie od niego szybsze. Wystarczyły dwa tygodnie, aby udało się przewidzieć kształty ponad 600 milionów białek.

Dlaczego znajomość kształtu białka jest tak ważna? Bo to najlepszy sposób na zrozumienie jego funkcji. Zazwyczaj w takich sytuacjach wykorzystuje się krystalografię rentgenowską, która polega na obserwowaniu, jak wysokoenergetyczne wiązki światła rozpraszają się wokół białek. Niestety, takie podejście nie działa w przypadku wszystkich białek, a na wyniki trzeba czekać miesiącami, jeśli nie latami. Jak do tej pory owa metoda przyczyniła się do odkrycia około 100 000 struktur białkowych.

Sztuczna inteligencja jest w stanie przewidywać kształt białek szybciej niż w przypadku innych metod

Używając formy samouczenia się znanego jako masked language modeling, wyszkoliliśmy model językowy na sekwencjach milionów naturalnych białek. Przy tym podejściu model musi poprawnie wypełnić puste miejsca we fragmencie tekstu […] Wyszkoliliśmy model językowy, aby wypełniał puste miejsca w sekwencji białka, jak “GL_KKE_AHY_G” na przestrzeni milionów różnorodnych białek. Odkryliśmy, że informacje o strukturze i funkcji białek mogą być zebrane za sprawą szkolenia.wyjaśniają badacze

Czytaj też: Sztuka sztucznej inteligencji dla każdego. Dążąca do tego firma zebrała 101 milionów dolarów

Testy oprogramowania odbyły się z użyciem bazy danych obejmującej DNA pobrane z gleby, wody morskiej, a nawet ludzkiego układu pokarmowego. Wprowadzając dane do programu ESMFold, naukowcy przewidzieli struktury ponad 617 milionów białek w ciągu zaledwie dwóch tygodni. To o ponad 400 milionów więcej niż AlphaFold, o czym informowano przed czterema miesiącami. Oznacza to, że wiele z nowo przewidzianych białek nie było nigdy wcześniej objętych badaniami.