Нейронні мережі є одним з напрямків штучного інтелекту , Які часто використовуються при вирішенні завдань оптимізації і розпізнавання образів. Вже розроблена достатня кількість моделей нейронних мереж для вирішення різних прикладних задач. Для кожної моделі запропоновані свої методи і алгоритми навчання. Незважаючи на безперервні роботи з удосконалення існуючих і розробки нових моделей і їх алгоритмів навчання, сама теорія нейронних мереж як і раніше залишається погано формалізованої.
Проте, при розробці нейронних мереж можна виділити два основних етапи:
- Структурний синтез - етап, на якому вибирається модель майбутньої нейронної мережі, її попередня структура і алгоритм навчання.
- Параметричний синтез - включає процес навчання нейронної мережі і перевірку отриманих результатів. Залежно від результатів перевірки приймається рішення про повернення на попередні стадії параметричного або навіть структурного синтезу.
Недостатня формализованность описаних вище етапів призводить до виникнення у розробника нейронних мереж цілого ряду проблем. Так, на етапі структурного синтезу при виборі моделі нейронної мережі, її внутрішньої структури і алгоритму навчання доводиться витрачати великі зусилля, звертаючись іноді навіть до допомоги більш досвідчених розробників. Проблемою на етапі параметричного синтезу стає обмеженість обчислювальних ресурсів при навчанні нейронної мережі. Справа в тому що, при вирішенні реальних завдань створюються нейронні мережі зі складною структурою, в зв'язку з чим їх навчання вимагає багато часу.
Але не все так погано. Розробники, спираючись на свій багатий досвід, змогли запропонувати деякі нескладні методи, що дозволяють підвищити ефективність процесу навчання багатошарових нейронних мереж при використанні методу зворотного поширення помилки. Як правило, навчання нейронної мережі відбувається до тих пір, поки її помилка не стане близькою до нуля. Це, як правило, призводить до значних витрат часових ресурсів, так як іноді може виявитися цілком достатнім, щоб помилка навчання нейронної мережі не перевищувала деякого значення, набагато більше віддаленого від нуля.
Ступінь достатності навчання нейронної мережі багато в чому визначається виходячи їх умов конкретного завдання і бажаного результату. Розглянемо наступну формалізацію принципу достатності навчання нейронної мережі.
Припустимо, дана деяка задача класифікації. Потрібно вирішити її, використовуючи багатошарову нейронну мережу, що навчаються за допомогою алгоритму зворотного поширення помилки . Як правило, в процесі навчання нейронної мережі для оцінки похибки навчання виділяють два види помилок: глобальні та локальні.
Формула для локальної помилки виглядає наступним чином:
де:
Формула для підрахунку глобальної помилки наступна:
де:
Ідеальним вважається таке навчання, після якого нейронна мережа повністю повторює навчальну вибірку. Таке навчання є трудомістким, а в деяких випадках і просто неможливим. Це викликано тим, що різні класи в навчальній вибірці можуть мати схожі об'єкти, і чим їх буде більше, тим складніше належить процес навчання нейронної мережі.
Суть принципу достатності полягає у відмові від прагнення до ідеалу при пошуку рішення задачі. Якщо цей принцип перенести на процес навчання нейронної мережі, то можна сказати, що 100% точність розпізнавання потрібно далеко не у всіх випадках. Для того щоб об'єкт розпізнавання був правильно визначений в свій клас цілком достатньо, щоб помилка нейронної мережі на конкретному навчальному наборі не перевищувала деякого . Якщо оцінка якості навчання нейронної мережі проходить за допомогою глобальної помилки, то цілком буває достатнім досягнення деякого значення .
Максимальне значення , При якому буде зберігатися задана точність розпізнавання, залежить від характеру навчальної вибірки. Як параметри характеризують навчальну вибірку, розглянемо її повноту і суперечливість.
Повнота навчальної вибірки характеризує забезпеченість класів навчальними наборами. Вважається, що для кожного класу кількість навчальних наборів має хоча б в 3-5 разів перевищувати кількість ознак класу, що використовується в цих наборах. Для розрахунку повноти навчальної вибірки можна скористатися наступною формулою:
де:
Суперечливими вважаються ті навчальні набори, в яких містяться об'єкти, визначені до різних класів, але мають однакові класифікаційні ознаки. Таким чином, суперечливість всієї навчальної вибірки перебувати за такою формулою:
де:
Таким чином, чим більше будуть значення і , Тим більше може бути величина , І тим швидше може проходити навчання нейронної мережі.