Specyfika budowy i uczenia sieci RBF

Opisany wyżej algorytm uczenia (ang. backpropagation) jest stosowany głównie do uczenia sieci MLP. Pozwalają one na budowę neuropodobnych modeli różnych zależności zadawanych wyłącznie za pomocą elementów zbioru uczącego i trzeba przyznać, że w większości przypadków dają bardzo dobre wyniki. Jeśli jednak modelowana zależność jest bardzo złożona, to czasem lepszą dokładność modelu można uzyskać sięgając po sieci typu RBF traktowanych jako alternatywa dla wyżej opisanych sieci MLP i mających (w ogólnym przypadku) lepszą zdolność do odtwarzania szczególnie "subtelnych" cech modelu. Właściwości i możliwości tej sieci omówimy poprzez wskazanie różnic, jakie występują pomiędzy siecią RBF i sieciami MLP.

W perceptronie wielowarstwowym każdy z neuronów realizuje pewną transformację liniową wektora wejściowego (czyli zbioru wartości wprowadzanych do neuronu). Dokładnie mówiąc, neurony te wyznaczają ważoną sumę wartości wejściowych, a następnie odejmują od tej sumy ustaloną wartość progową. Uzyskany rezultat, będący pewną kombinacją liniową sygnałów wejściowych, jest poddawany w sieci MLP działaniu nieliniowej funkcji aktywacji — najczęściej o kształcie sigmoidy. Liniowa funkcja na wejściu neuronu powoduje, że perceptron wielowarstwowy rozwiązuje stawiane mu zadanie dzieląc przestrzeń sygnałów wejściowych przy użyciu hiperpłaszczyzn na rozłączne obszary przypisywane do różnych wartości sygnałów wyjściowych. Te rozłączne obszary mogą być np. przywiązane do różnych wzorców i mogą powodować różne klasyfikacje pokazywanych danych wejściowych. W odróżnieniu od tego liniowego podejścia, stosowanego w perceptronach wielowarstwowych, sieć o radialnych funkcjach bazowych wykorzystuje radialne funkcje wejściowe. Każdy neuron w sieci RBF wyznacza na swoim wejściu kwadrat odległości aktualnego wektora wejściowego od swojego wektora wag. Ponieważ zbiory sygnałów wejściowych o jednakowych wartościach funkcji wejściowej mają w tym przypadku formę hiperkul (na płaszczyźnie dwuwymiarowej będą to koła) — w związku z tym mówi się w tym przypadku o funkcjach radialnych (czasem używane jest też określenie "funkcje o symetrii radialnej" lub "funkcje o symetrii kołowej"). Funkcje te tworzą podstawę (bazę) do wyznaczania sygnału wyjściowego z sieci — stąd ich nazwa: radialne funkcje bazowe.radialne funkcje bazowe Prezentując nieco dokładniej koncepcję funkcji radialnej trzeba wspomnieć o jeszcze jednym szczególe: odległość wyznaczona przez każdy neuron (będąca miarą dystansu między aktualnym wektorem wejściowym i "centrum" reprezentowanym przez zestaw wag neuronu) jest dodatkowo modulowana przez tzw. "wartość progową", wartość progowa będącą w rzeczywistości zadanym maksymalnym odchyleniem, powyżej którego odległość uważana jest za tak dużą, że sygnał wyjściowy neuronu przyjmuje wartości bardzo bliskie wartości zerowej. Parametry odchylenia ("wartość progowa") wyznaczają w tej sytuacji wielkości maksymalnego promienia wspomnianych hipersfer (lub okręgów). Wartość pobudzenia postsynaptycznego neuronu wyznaczona w wyżej opisany sposób jest następnie przekształcana przez funkcję aktywacji.

zalety i wady sieci MPL i RBF Dwa omówione wyżej podejścia (z funkcjami MLP i z funkcjami RBF) posiadają przeciwstawne zalety i wady. Podejście radialne pozwala budować funkcję aproksymowaną przez sieć w sposób raczej lokalny, podczas gdy podejście liniowe łatwo uogólnia kształt funkcji zasugerowany przez niewielką liczbę przypadków zbioru uczącego w taki sposób, że odnosi się ona do całej przestrzeni sygnałów wejściowych. W efekcie sieci RBF potrzebują zwykle znacznie większej liczby neuronów niż sieci MLP dla odtworzenia (z podobną dokładnością) własności modelowanej funkcji w obszarze "pokrywanym" przez dane uczące. Jest to korzystna cecha sieci MLP. Z kolei sieci MLP mogą niekiedy realizować nieuprawnioną ekstrapolację — tzn. z dużą "pewnością siebie" podawać wartości funkcji wynikowej także w przypadku, gdy dane wejściowe nie są podobne do żadnych danych użytych w trakcie uczenia i tak naprawdę nie wiadomo, jaka powinna być wartość wyjściowa. W takich przypadkach sieci RBF generują zawsze wartość bliską zeru, co można utożsamiać z odpowiedzią "nie wiem" — znacznie bardziej właściwą i znacznie bezpieczniejszą w przypadku takich właśnie odległych danych wejściowych. Teoria mówi również, że sieci MLP mogą potrzebować 2 warstw ukrytych do rozwiązania pewnych problemów, a praktyka pokazuje, że czasami konieczna jest nawet większa liczba warstw do zapewnienia efektywnego działania tych sieci przy skomplikowanym kształcie odtwarzanej przez model funkcji. W przeciwieństwie do tego, w sieciach RBF jedna warstwa ukryta jest zawsze wystarczająca, nawet jeśli modelowana funkcja ma bardzo skomplikowany kształt. Sieci RBF mają więc zawsze trzy warstwy: warstwę wejściową, warstwę ukrytą mającą neurony radialne oraz liniową warstwę wyjściową. Nieliniowość neuronów radialnych implikuje możliwość wykorzystania w pełni możliwości liniowych neuronów wyjściowych, ponieważ po nieliniowej transformacji sygnałów w warstwie ukrytej nie zachodzi konieczność dodatkowego nieliniowego ich przetwarzania w warstwie wyjściowej. Przyspiesza to i znacznie ułatwia proces uczenia tych sieci. Warto dodać, że istnieją standardowe techniki optymalizacji liniowej, które pozwalają na optymalizację parametrów (współczynników wagowych) warstwy wyjściowej, pod warunkiem, że wpierw zostały ustalone parametry warstw wcześniejszych. Podejście stosowane przy uczeniu sieci RBF jest z tego powodu całkowicie odmienne od podejścia charakteryzującego uczenie innych sieci, np. MLP.

technika uczenia — bez nauczyciela Przede wszystkim, parametry neuronów warstwy radialnej (centra radialne i ich odchylenia) są ustalane przy użyciu techniki uczenia bez nauczyciela. Jest to taka technika, która uwzględnia wyłącznie zmienne wejściowe znajdujące się w zbiorze danych, nie odwołując się wcale do zawartych w nim także wartości wyjściowych. Ponieważ rola nauczyciela przy uczeniu sieci polega właśnie na tym, że musi on podać wzorcowe (poprawne) rozwiązania dla zadań zawartych w zbiorze uczącym — logiczne jest, że technika uczenia, która nie korzysta z tych podawanych przez nauczyciela wzorców sygnałów wyjściowych, może być nazwana właśnie techniką uczenia bez nauczyciela. W przypadku uczenia warstwy ukrytej sieci RBF idea tego postępowania polega na wybraniu przez sieć centrów radialnych (wyrażanych przez zestawy wag poszczególnych neuronów) leżących dokładnie w środku skupień występujących w danych uczących. Z kolei ustalane analogicznie odchylenie odzwierciedla gęstość danych — im dane są gęstsze, tym mniejszy zasięg mają poszczególne ustalone centra. Przy takim podejściu całość "wiedzy" na temat specyfiki danych wejściowych zawarta jest w warstwie radialnej i liniowa warstwa wyjściowa może być już uczona przy użyciu techniki pseudoinwersji.

Warto wiedzieć, że w sieci RBF istnieje również możliwość zmiany funkcji aktywacji neuronu wyjściowego na funkcję logistyczną, ale wtedy konieczne jest do uczenia takiej nieliniowej warstwy wyjściowe wykorzystanie algorytmu wstecznej propagacji błędów, algorytmu gradientów sprzężonych lub metody Levenberga-Marquardta. Mimo kłopotów z uczeniem takiej nieliniowej sieci RBF, podejście to łączy zalety nieliniowości radialnej i stabilności logistycznej, chociaż — co raz jeszcze warto podkreślić — ceną takiego skomplikowania sieci będzie znaczne zwiększenie czasu jej uczenia.

Specyfika budowy i uczenia sieci RBF

Teraz do 20% taniej w Księgarni PWN