Algorytm Marquardta-Levenberga

Metoda gradientów sprzężonych ma wielu zwolenników. Wskazuje się jednak także na ujemne strony stosowania tej metody:

W celu uniknięcia tych niedogodności w praktyce stosuje się metody wywodzące się z metody Newtona, ale odpowiednio przetworzone. Jedną z najpopularniejszych takich modyfikacji jest algorytm Marquardta-Levenberga. Jest to metoda oparta na modelu obszaru (ang.: model-trust region approach), która działa w następujący sposób: zamiast przeprowadzać poszukiwanie w jakimkolwiek kierunku (tak czy inaczej wyznaczonym), przyjmuje się założenie, że powierzchnia ma jakiś ustalony prosty kształt, tak że jej minimum może zostać wyznaczone (i osiągnięte) bezpośrednio, w jednym kroku. Następnie przeprowadza się optymalne dopasowanie założonego modelu do posiadanych danych. metoda najszybszego spadku Powstaje w ten sposób prosty model złożonej (w rzeczywistości) powierzchni błędu. W oparciu o ten model wyznacza się (obliczeniowo) hipotetyczne położenia minimum. Potem model jest testowany w celu określenia, jak dobre jest sugerowane rozwiązanie. Jeśli test wykaże użyteczność modelu, wówczas wskazany przez model punkt jest przyjmowany jako kolejny punkt startowy (do wykonania kolejnej przymiarki modelu i kolejnej próby "ustrzelenia" poszukiwanego minimum). Po sukcesie próby dopasowywania modelu następny krok wykonywany jest podobnie, ale z większym zaufaniem do modelu. Jeśli natomiat test wykaże, że model nie spełnia pokładanych w nim nadziei — powraca się (częściowo) do bezpiecznej, ale czasochłonnej metody najszybszego spadku. W typowych modelach zakłada się, że modelowana powierzchnia funkcji błędu charakteryzuje się łagodnym kształtem, dobrze opisywalnym za pomocą prostych wzorów matematycznych oraz posiadającym dobrze zaznaczone minimum. Najczęściej zakłada się, że jest to po prostu paraboloida, co w obszarze położonym dostatecznie blisko poszukiwanego minimum jest założeniem dosyć prawdopodobnym. W obszarach odległych od minimum wspomniane założenie może być jednak całkowicie nieprawdziwe i model zbudowany na podstawie tego założenia może poprzez swoje minimum wskazać krańcowo nieodpowiedni punkt — gdyby do tego właśnie punktu nastąpiło przesunięcie procesu poszukiwania minimum funkcji błędu może nastąpić znaczne pogorszenie procesu uczenia. Dlatego konieczna jest kontrola i ewentualna korekta. Doświadczenie wykazuje, że przy złym dopasowaniu modelowi można zaufać wyłącznie w najbliższym otoczeniu bieżącego punktu. Kłopot polega na tym, że wielkość tego otoczenia nie jest znana i musi być ustalona empirycznie. Z tego powodu nowy wybrany punkt (w przypadku niepowodzenia zastosowania "czystego" modelu) jest kompromisem między punktem sugerowanym przez model, a tym, który jest sugerowany przez (opartą na gradiencie) metodę największego spadku. Jeśli nowy punkt jest dobry, to następuje przejście do niego i zostaje wzmocniona rola modelu przy wyborze nowego punktu. Jeśli punkt jest źle wybrany — to nie jest wykonywane przejście do niego, ale jest wzmacniana rola metody gradientowej w wyborze kolejnego punktu i próba jest ponawiana. Jeżeli nadal wytypowany punkt nie spełnia oczekiwań — jeszcze raz zmniejszana jest rola modelu, a wzmacniana rola składnika pochodzącego od gradientu. Ta procedura może być wypróbowywana wielokrotnie, przy czym za każdym razem zmniejszana jest wielkość kroku wykonywanego we wskazanym kierunku (rys. 8).

Rysunek 8. Przebieg procesu uczenia sterowany algorytmem Marquandta-Levenberga; minimum funkcji błędów osiągnięto po 7 iteracjach

(aby obejrzeć powiększony rysunek, kliknij w miniaturkę)

Algorytm Marquardta-Levenberga w przypadkach typowych jest najszybszym algorytmem dostępnym w obszarze popularnych technik uczenia. Jest to jego ważna zaleta, chociaż niestety posiada on także kilka istotnych ograniczeń:

Copyright © 1997-2024 Wydawnictwo Naukowe PWN SA
infolinia: 0 801 33 33 88