image 2023-04-19 211557140

Właściciel zdjęcia: Nintendo

Sekrety trenowania modelu AI w Pokémon Red - Wyjątkowy eksperyment

Jeden programista poddał model AI na 50 000 godzin treningu w grze Pokémon Red, co doprowadziło do stworzenia algorytmu zdolnego do badania gry i budowania drużyny w celu pokonania pierwszego lidera Sali. Jednak nie jest to taki algorytm, który mógłby odnaleźć drogę przez Mt. Moon lub wiedzieć, że lepiej jest przestać kupować Magikarpy. Przede wszystkim to ćwiczenie stanowi fascynujący sposób na zrozumienie, jak właściwie działa uczenie maszynowe. 


Jak opisuje Peter Whidden w obszernym materiale wideo, AI jest w stanie oddziaływać na grę za pomocą standardowych przycisków w emulatorze. Wciska przycisk i patrzy na ekran, aby zobaczyć, co się stało, tak samo jak gracz ludzki. Whidden ustawił sesje nauki na dwie godziny czasu gry, chociaż dzięki przyspieszeniu emulacji można je było zakończyć w około sześć minut czasu rzeczywistego Proces ten został dodatkowo przyspieszony dzięki jednoczesnemu uruchomieniu 40 sesji testowych. 

Ponieważ algorytm maszynowy nie ma w naturze chęci ukończenia gry wideo, Whidden ustawił konkretne cele, za które AI było nagradzane. Aby zachęcić do ciekawego odkrywania, AI otrzymywało punkt nagrody za każdorazowe zauważenie czegoś nowego, mierzonego jako zauważalnie różne piksele na ekranie. To jednak wiązało się z niezamierzonymi konsekwencjami - przykładowo AI po prostu wpatrywało się z fascynacją w lekki ruch wody. Ogólnie skutkowało tym, że komputer motywował się, aby przejść z Pallet Town przez Las Wiridian by dotrzeć do Miasta Pewter, gdzie odbywa się pierwsza walka w sali z Brockiem. 

AI potrzebuje także dalszych nagród i kar. Ponieważ wszystkie nagrody były związane z widzeniem nowych rzeczy, AI chciało jedynie iść naprzód, co oznaczało, że nie dbało o walki ani łapanie Pokémonów, więc na początku unikało każdego spotkania. Dlatego Whidden dodał system nagradzania AI na podstawie łącznego poziomu drużyny Pokémonów, które aktualnie posiada. 

To działało, aby zachęcić AI do walki o punkty doświadczenia i łapania Pokémonów, ale miało to także niezamierzony skutek. Kiedy AI odwiedzało Pokémon Center, integrowało się z PC i deponowało kilka Pokémonów. To dramatycznie obniżyło łączny poziom drużyny, jednocześnie odbierając masę punktów nagród. Dla AI było to równoznaczne z traumatycznym doświadczeniem, co skutkowało tym, że unikało Pokémon Center całkowicie. Odmawiając tym samym uzdrowienia drużyny, dopóki Whidden nie dostroił ponownie systemów nagród. 

AI w zasadzie robi rzeczy w losowej kolejności, dopóki nie odkryje czegoś, co przyniesie mu punkty nagród. Walka z Brockiem okazała się szczególnym wyzwaniem, ponieważ aby zadać jakiekolwiek realne obrażenia jego Pokémonom typu kamień, trzeba było wykorzystać ich słabości. Tylko dzięki jednej konkretnej iteracji, w której był Squirtle, AI skończyło się Power Points dla wszystkich ruchów oprócz Bubblebeam algorytm nauczył się jak pokonać tę salę gimnastyczną.

Mimo że AI jest słabe w rozumieniu rzeczy, które mogą wydawać się naturalne dla graczy ludzkich, dosyć szybko uczy się innych, znacznie bardziej ezoterycznych rzeczy. Whidden zdał sobie sprawę w pewnym momencie, że algorytm zawsze planuje bardzo konkretną, pozornie bezsensowną ścieżkę od Pallet Town aż do pierwszego spotkania z dzikim Pokémonem. To wydawało się dziwne, aż stało się jasne, że ta dokładna seria poleceń gwarantowała, że dzikiego Pokémona można złapać za pomocą jednego rzutu Pokeballa. W ten oto sposób AI spontanicznie nauczyło się sztuki manipulacji RNG, którą speedrunnerzy rozwijają przez lata. 

Pokonanie Brocka stanowiło dość naturalny cel końcowy projektu, ale Whidden pozwolił AI działać dłużej, aby zobaczyć, co się stanie, i faktycznie udało mu się dotrzeć głęboko w Mt. Moon - ale wilgotne, monotonne korytarze podziemia odstraszyły AI na tyle, że nigdy nie udało mu się znaleźć w drugiej sali gimnastycznej w Cerulean City.
 
Jednak jedną z rzeczy, które AI uwielbiało, było kupowanie Magikarpów. Człowiek, który sprzedaje Ci najsłabszego Pokemona wszechczasów za absurdalnie wysoką cenę, stał się już niemal memem. Dla AI kupowanie Magikarpa to szybki sposób na zdobycie pięciu dodatkowych poziomów Pokemonów w drużynie - najlepsza okazja w grze! AI kupiło tego Magikarpa ponad 10 000 razy. 



Na zakończenie jeszcze jedna ciekawostka o magii komputera robiącego losowe rzeczy: w pewnym momencie AI złapało Rattatę i nazwało Pokémona "AI." Czasami te rzeczy układają się zbyt doskonale. 

Co sądzicie o pomyśle, by poddać model AI tak długiemu treningowi w grze Pokémon Red? Czy uważacie, że to ciekawy sposób na zrozumienie uczenia maszynowego? Dajcie nam znać w komentarzach lub na naszych mediach społecznościowych. 

Awatar

Artur Tański



Komentarze (0)

Zaloguj się lub zarejestruj aby dodać komentarz