Hybrid Artificial Intelligence (dalej AI) oraz nowy zestaw danych i benchmarków do oceny możliwości algorytmów AI w rozumowaniu działań zawartych w informacjach wideo zostały zaprezentowane przez naukowców z IBM, MIT, Harvardu i DeepMind na konferencji ICLR 2020, raporty TheNextweb 17 maja.
Nowy zbiór danych i środowisko badawcze zaprezentowane na ICLR 2020 nosi nazwę CoLlision Events for Video REpresentation and Reasoning lub CLEVRER. Opierają się na CLEVR, wizualnym zestawie pytań i odpowiedzi opracowanym na Uniwersytecie Stanforda w 2017 roku. CLEVR to zestaw zadań przedstawiających nieruchome obrazy stałych obiektów. Agent AI musi być w stanie przeanalizować scenę i odpowiedzieć na kilka pytań dotyczących liczby obiektów, ich atrybutów i relacji przestrzennych.
Jako rozwiązanie trudnego zadania dla klasycznej sztucznej inteligencji, badacze przedstawili model neuro-symbolicznego myślenia dynamicznego, będącego połączeniem sieci neuronowych i symbolicznej sztucznej inteligencji.
Wyniki pokazały, że włączenie sieci neuronowych i programów symbolicznych do jednego modelu sztucznej inteligencji może połączyć ich mocne strony i przezwyciężyć ich słabości. „Reprezentacja symboliczna zapewnia potężne wspólne ramy dla wizji, języka, dynamiki i przyczynowości” - zauważają autorzy, dodając, że programy symboliczne umożliwiają modelowi „wyraźne uchwycenie kompozycyjności leżącej u podstaw struktury przyczynowej wideo i logiki pytania”.
Zalety takich systemów są ograniczone przez bezwarunkowe wady. Dane używane do trenowania modelu wymagają dodatkowych adnotacji, które mogą być zbyt energochłonne i kosztowne w rzeczywistych zastosowaniach.