Sieci nieliniowe
Opisana wcześniej prawidłowość wskazuje, że zasadniczą cechą sieci nieliniowych jest ich (potencjalnie nieograniczona) wielowarstwowość. Z tego powodu sieci te często oznaczane są symbolem MLP (Multi-Layer Perceptron). Przyjrzyjmy się ich działaniu ze szczególnym uwzględnieniem wzmiankowanego efektu wielowarstwowości. Każdy neuron w nieliniowej sieci wprowadza do struktury modelu element, który może być określony ze względu na kształt odpowiedniego wykresu jako "urwisko sigmoidalne". Element taki może być utożsamiany (w zadaniach związanych z rozpoznawaniem) z liniową funkcją dyskryminującą. Punkty położone po jednej stronie urwiska zostają zaklasyfikowane jako należące do jednej klasy, a punkty położone po drugiej stronie jako nie należące do tej klasy. Na podstawie powyższych uwag można sformułować następujące wnioski:
- sieć bez warstw ukrytych Sieć nie mająca wcale warstw ukrytych może służyć głównie do rozwiązywania tzw. problemów liniowo-separowalnych, czyli takich, w których istnieje linia prosta lub, mówiąc ogólniej — hiperpłaszczyzna (będąca, w przypadku przestrzeni o wyższych wymiarach, odpowiednikiem linii prostej w przestrzeni dwuwymiarowej) — która może być przeprowadzona w taki sposób, że oddziela wzajemnie od siebie obiekty rozróżnianych klas. W przestrzeni sygnałów wejściowych wszystkie punkty, dla których sieć powinna przyjmować przeciwstawne decyzje, powinny po zakończeniu procesu uczenia znaleźć się po przeciwnych stronach "urwiska".
- sieć z pojedynczą warstwą ukrytą Sieć z pojedynczą warstwą ukrytą ma do dyspozycji pewną liczbę dodatkowych "urwisk sigmoidalnych" (każdemu neuronowi warstwy ukrytej odpowiada jedno dodatkowe urwisko), które mogą być kombinowane i łączone w taki sposób, że powstaje jeden obszar plateau o skomplikowanym kształcie. Łączenie to dokonywane jest za pomocą neuronów znajdujących się w warstwie wyjściowej, sumujących (z wagami) sygnały z całej warstwy ukrytej. "Płaskowzgórze" złożone z wielu tarasów, utworzone przez warstwę wyjściową sieci, posiada w takim przypadku wypukłą powłokę (tzn. nie występują na jej powierzchni żadne wgniecenia ani otwory). Wyróżniony obszar płaskowyżu musi być w rozważanym przypadku dodatkowo jednospójny, tzn. nie może on mieć formy zbioru oddzielnych "wysp".
- Podane wyżej ograniczenia, wynikające z analizy matematycznej osiągalnych form przetwarzania danych wejściowych występujących w dwuwarstwowej sieci neuronowej (jedna warstwa ukryta + agregująca sygnały warstwa wyjściowa), dają się częściowo złagodzić poprzez odpowiednią interpretację danych. Dzięki takiej interpretacji możemy, na ogół bez trudu, uzyskać zachowanie sieci, które według formalnej analizy matematycznej wymagałoby wklęsłej powierzchni decyzyjnej. Korzystamy przy tym często z tego, że dopełnienie obszaru wypukłego jest właśnie potrzebnym obszarem wklęsłym. W związku z tym chociaż samo plateau może być wyłącznie wypukłe, to jednak otaczająca je dolina może mieć wklęsłość — wynikającą właśnie z obecności płaskowyżu "wycinającego" jej fragmenty. Wystarczy tylko inaczej się umówić co do tego, co oznacza 1, a co oznacza 0 — i można dysponować także obszarem decyzyjnym zawierającym wklęsłości.
- Dodatkowe możliwości kształtowania powierzchni decyzyjnej wynikają z faktu, że samo plateau może rozciągać się w pewnym kierunku aż do nieskończoności (jak rozszerzony półwysep). W związku z tymi możliwościami sieć taka (tzn. dwuwarstwowa) w praktyce jest zdolna do modelowania we właściwy sposób większości, chociaż nie wszystkich, rzeczywistych problemów klasyfikacyjnych.
- sieć z dwiema warstwami ukrytymi Dopiero sieć posiadająca dwie warstwy ukryte (oraz oczywiście warstwę wyjściową) ma na tyle bogaty asortyment możliwych zachowań, że może modelować wszystkie bez wyjątku rodzaje zależności danych wyjściowych od danych wejściowych. Wynika to stąd, że dla takiej sieci obszar wyróżniony, powstający po procesie uczenia (tzn. obszar, w którym nauczona sieć produkuje na swoim wyjściu sygnał +1) może posiadać formę szeregu połączonych (dowolnie) ze sobą różnokształtnych obszarów, co pozwala bez ograniczeń modelować zarówno obszary wypukłe, jak i wklęsłe (a także "dziury" wewnątrz obszarów). Z tego samego powodu sieć z dwiema warstwami ukrytymi nie stwarza przeszkód przy modelowaniu powierzchni decyzyjnych stanowiących oddzielne "wyspy" obszarów plateau. Liczba płaskich powierzchni, składających się na taki kombinowany obszar, odpowiada liczbie neuronów w drugiej warstwie ukrytej, zaś liczba boków każdego plateau odpowiada liczbie neuronów w pierwszej warstwie ukrytej. Daje to bardzo bogate możliwości tworzenia praktycznie nieograniczonej liczby dowolnych modeli. Okazuje się, że w ten sposób można tworzyć reprezentację dowolnego kształtu (w tym również dowolne wklęsłości i otwory, bo niektóre plateau mogą być dodawane do końcowej kombinacji ze znakiem minus, a więc mogą być traktowane jako wzorniki "wykrawające" kawałki przestrzeni innych plateau). Łatwo stwierdzić, że używając dostatecznie dużej liczby takich plateau można zrealizować (z relatywnie dużą dokładnością) każde, absolutnie dowolne odwzorowanie danych wejściowych w sygnał wyjściowy.
W praktyce większość problemów wymaga użycia najwyżej pojedynczej warstwy ukrytej, a tylko w pewnych bardzo szczególnych przypadkach należy zastosować sieć posiadającą dwie warstwy ukryte. Większość specjalistów sądzi, że potrzeba zastosowania trzech warstw ukrytych nie pojawia się praktycznie nigdy, a ci, którzy stosują sieci zawierające trzy lub więcej warstw ukrytych postępują bardzo nieroztropnie — zwłaszcza, gdy uwzględni się złożoność procesu uczenia zdecydowanie rosnącą z każdą warstwą sieci.