Co Jest Bardziej Przyjazne Dla środowiska: Szkolenie Modelu AI Czy Pięciu Samochodów? - Alternatywny Widok

Spisu treści:

Co Jest Bardziej Przyjazne Dla środowiska: Szkolenie Modelu AI Czy Pięciu Samochodów? - Alternatywny Widok
Co Jest Bardziej Przyjazne Dla środowiska: Szkolenie Modelu AI Czy Pięciu Samochodów? - Alternatywny Widok

Wideo: Co Jest Bardziej Przyjazne Dla środowiska: Szkolenie Modelu AI Czy Pięciu Samochodów? - Alternatywny Widok

Wideo: Co Jest Bardziej Przyjazne Dla środowiska: Szkolenie Modelu AI Czy Pięciu Samochodów? - Alternatywny Widok
Wideo: Jak samochody wpływają na środowisko? 2024, Lipiec
Anonim

Dziedzinę sztucznej inteligencji często porównuje się do przemysłu naftowego: po wydobyciu i rafinacji dane, podobnie jak ropa, mogą stać się bardzo dochodowym towarem. Jednak teraz staje się jasne, że ta metafora się rozszerza. Podobnie jak paliwa kopalne, uczenie głębokie ma ogromny wpływ na środowisko. W nowym badaniu naukowcy z University of Massachusetts Amherst ocenili cykl życia uczenia się kilku popularnych dużych modeli sztucznej inteligencji.

Okazało się, że proces ten może wygenerować ponad 626 000 funtów (około 300 000 kg) ekwiwalentu dwutlenku węgla, czyli prawie pięciokrotnie więcej niż emisja typowego samochodu w ciągu pięciu lat (łącznie z produkcją samego samochodu).

Jak trenowane są modele AI

To oszałamiająca ocena ilościowa tego, co badacze sztucznej inteligencji od dawna podejrzewali.

Ślad węglowy przetwarzania języka naturalnego

Film promocyjny:

Artykuł dotyczy w szczególności procesu uczenia modelu przetwarzania języka naturalnego (NLP), poddziedziny sztucznej inteligencji, która zajmuje się uczeniem maszyn do pracy z ludzkim językiem. W ciągu ostatnich dwóch lat społeczność NLP dokonała kilku ważnych kamieni milowych w dziedzinie tłumaczenia maszynowego, uzupełniania zdań i innych standardowych zadań oceniania. Na przykład niesławny model OpenAI GPT-2 odniósł sukces w tworzeniu przekonujących fałszywych wiadomości.

Jednak takie postępy wymagały szkolenia coraz większych modeli na rozciągniętych zbiorach danych ze zdań wyciąganych z Internetu. To podejście jest kosztowne obliczeniowo i bardzo energochłonne.

Naukowcy przyjrzeli się czterem modelom w obszarze odpowiedzialnym za największe skoki wydajności: Transformer, ELMo, BERT i GPT-2. Trenowali każdego z nich na jednym GPU przez jeden dzień, aby mierzyć zużycie energii.

Następnie wykorzystali liczbę godzin szkolenia określoną w oryginalnych dokumentach modelowych, aby obliczyć całkowitą energię zużytą podczas całego procesu szkolenia. Ta ilość została przeliczona na równowartość funtów dwutlenku węgla, co było zgodne z miksem energetycznym AWS firmy Amazon, największego na świecie dostawcy usług w chmurze.

Okazało się, że obliczeniowe i środowiskowe koszty szkolenia wzrosły proporcjonalnie do rozmiaru modelu, a następnie wzrosły wykładniczo, gdy dostosowano ostateczną dokładność modelu. Przeszukiwanie architektury neuronowej, które próbuje zoptymalizować model poprzez stopniową zmianę struktury sieci neuronowej metodą prób i błędów, pociąga za sobą niezwykle wysokie koszty przy niewielkim wzroście wydajności. Bez tego najdroższy model BERT pozostawił ślad węglowy 1400 funtów (635 kg), co jest bliskie transamerykańskiej podróży w obie strony.

Ponadto liczby te należy traktować jedynie jako wartości odniesienia.

Ogółem naukowcy szacują, że proces tworzenia i testowania finalnego modelu godnego publikacji wymagał przeszkolenia 4 789 modeli w sześć miesięcy. W przeliczeniu na ekwiwalent CO2 jest to około 35 000 kg.

Znaczenie tych liczb jest kolosalne, zwłaszcza biorąc pod uwagę obecne trendy w badaniach nad sztuczną inteligencją. Ogólnie rzecz biorąc, badania nad sztuczną inteligencją pomijają wydajność, ponieważ duże sieci neuronowe są uznawane za przydatne do różnych zadań, a firmy dysponujące nieograniczonymi zasobami obliczeniowymi będą je wykorzystywać, aby uzyskać przewagę konkurencyjną.

Ilya Khel

Zalecane: