Międzynarodowy zespół stworzył innowacyjną metodę beam search dla problemu VGLCS, testując ją na 320 instancjach z sekwencjami do 500 znaków.

Źródło zdjęcia: arXiv.org

Badanie pokazuje, jak analizować wielokrotne odpowiedzi modeli językowych zamiast pojedynczych wyników. Nowe narzędzie GROVE poprawia ocenę różnorodności AI.

MIT Technology Review zaprezentowało listę kluczowych technologii AI na 2026 rok podczas transmisji EmTech AI dla subskrybentów i absolwentów MIT.
Międzynarodowy zespół badaczy opublikował nowe rozwiązanie dla problemu Variable Gapped Longest Common Subsequence (VGLCS), który ma zastosowanie w analizie sekwencji molekularnych i szeregów czasowych. Badanie przedstawione w artykule naukowym opisuje innowacyjną metodę opartą na algorytmie beam search, która radzi sobie z kombinatoryczną złożonością tego problemu.
Problem VGLCS stanowi uogólnienie klasycznego problemu najdłuższej wspólnej podsekwencji (LCS), wprowadzając elastyczne ograniczenia odstępów między kolejnymi znakami rozwiązania. Ma to kluczowe znaczenie w porównywaniu sekwencji molekularnych, gdzie muszą być respektowane ograniczenia strukturalnej odległości między resztami, oraz w analizie szeregów czasowych, gdzie zdarzenia muszą występować w określonych odstępach temporalnych.
Autorzy badania, w tym Marko Djukanović, Nikola Balaban, Christian Blum, Aleksandar Kartelj, Sašo Džeroski i Žiga Zebec, zaproponowali framework wyszukiwania oparty na reprezentacji grafu stanów z korzeniami. W tym podejściu przestrzeń stanów składa się z generalnie dużej liczby zakorzenionych podgrafów stanów, co prowadzi do eksplozji kombinatorycznej.
Aby poradzić sobie z tym wyzwaniem, zespół zastosował iteracyjną strategię beam search, która dynamicznie utrzymuje globalną pulę obiecujących węzłów kandydujących. Rozwiązanie to umożliwia efektywną kontrolę dywersyfikacji między iteracjami, co jest kluczowe dla znalezienia wysokiej jakości rozwiązań.
Problem VGLCS ma szczególne znaczenie w dwóch kluczowych obszarach zastosowań. W porównywaniu sekwencji molekularnych wymaga respektowania ograniczeń strukturalnej odległości między resztami, podczas gdy w analizie szeregów czasowych zdarzenia muszą występować w ramach określonych opóźnień temporalnych.
Badacze przeprowadzili według swojej wiedzy pierwszy kompleksowy study obliczeniowy problemu VGLCS. Testy objęły 320 syntetycznych instancji o różnej złożoności - od sekwencji z maksymalnie 10 sekwencjami wejściowymi do sekwencji zawierających do 500 znaków. Wyniki eksperymentalne potwierdziły odporność zaprojektowanego podejścia w porównaniu z podstawowym algorytmem beam search przy zachowaniu porównywalnych czasów wykonania.
Opracowane rozwiązanie stanowi znaczący postęp w rozwiązywaniu złożonych problemów sekwencyjnych, otwierając nowe możliwości dla analizy danych molekularnych i czasowych w sztucznej inteligencji.