Што такое навучанне з падмацаваннем?

У галіне сучаснага штучнага інтэлекту (AI) навучанне з падмацаваннем (RL) з’яўляецца адной з самых крутых тэм даследаванняў. Распрацоўшчыкі AI і машыннага навучання (ML) таксама засяроджваюцца на практыцы RL для імправізацыі інтэлектуальных праграм або інструментаў, якія яны распрацоўваюць.

Машыннае навучанне – гэта прынцып, які ляжыць у аснове ўсіх прадуктаў штучнага інтэлекту. Распрацоўшчыкі-людзі выкарыстоўваюць розныя метадалогіі ML для навучання сваіх інтэлектуальных праграм, гульняў і г.д. ML – гэта вельмі дыверсіфікаваная сфера, і розныя каманды распрацоўшчыкаў прапануюць новыя метады навучання машыны.

Адным з такіх прыбытковых метадаў ML з’яўляецца глыбокае навучанне з падмацаваннем. Тут вы караеце непажаданыя паводзіны машыны і ўзнагароджваеце жаданыя дзеянні разумнай машыны. Эксперты лічаць, што гэты метад ML абавязкова падштурхне ІІ вучыцца на ўласным вопыце.

Працягвайце чытаць гэта канчатковае кіраўніцтва па метадах навучання з падмацаваннем для інтэлектуальных праграм і машын, калі вы плануеце зрабіць кар’еру ў галіне штучнага інтэлекту і машыннага навучання.

Змест

Што такое навучанне з падмацаваннем у машынным навучанні?

RL – гэта навучанне мадэлям машыннага навучання камп’ютэрным праграмам. Затым прыкладанне можа прымаць паслядоўнасць рашэнняў на аснове мадэляў навучання. Праграмнае забеспячэнне вучыцца дасягаць мэты ў патэнцыяльна складаных і нявызначаных умовах. У гэтай мадэлі машыннага навучання штучны інтэлект сутыкаецца з гульнявым сцэнарыем.

Праграма штучнага інтэлекту выкарыстоўвае метад спроб і памылак, каб знайсці крэатыўнае рашэнне разгляданай праблемы. Пасля таго, як праграма AI вывучае правільныя мадэлі ML, яна інструктуе машыну, якой кіруе, выконваць некаторыя задачы, якія хоча праграміст.

За правільнае рашэнне і выкананне задачы ІІ атрымлівае ўзнагароду. Аднак, калі штучны інтэлект зробіць няправільны выбар, яму пагражае штраф, напрыклад, страта бонусных ачкоў. Канчатковая мэта прыкладання AI – назапасіць максімальную колькасць бонусных ачкоў для перамогі ў гульні.

Праграміст прыкладання AI ўсталёўвае правілы гульні або палітыку ўзнагароджання. Праграміст таксама дае задачу, якую ІІ павінен вырашыць. У адрозненне ад іншых мадэляў ML, праграма AI не атрымлівае ніякіх падказак ад праграміста.

ІІ павінен высветліць, як вырашаць гульнявыя задачы, каб зарабіць максімум узнагарод. Прыкладанне можа выкарыстоўваць метад спроб і памылак, выпадковыя выпрабаванні, навыкі працы з суперкамп’ютэрам і складаныя тактыкі разумовага працэсу, каб знайсці рашэнне.

Вы павінны абсталяваць праграму штучнага інтэлекту магутнай вылічальнай інфраструктурай і падключыць яе сістэму мыслення да розных паралельных і гістарычных геймплэяў. Затым штучны інтэлект можа прадэманстраваць крытычны творчы патэнцыял высокага ўзроўню, які людзі не могуць сабе ўявіць.

#1. Перамога над лепшым гульцом у Human Go

AlphaGo AI ад DeepMind Technologies, даччынай кампаніі Google, з’яўляецца адным з вядучых прыкладаў машыннага навучання на аснове RL. ШІ гуляе ў кітайскую настольную гульню Go. Гэта гульня 3000-гадовай даўніны, якая засяроджваецца на тактыцы і стратэгіі.

Праверце гэта:  Ці адсочвае Apple кожнае прыкладанне Mac, якое вы запускаеце? OCSP растлумачыў

Праграмісты выкарыстоўвалі метад навучання RL для AlphaGo. Ён гуляў у тысячы гульнявых сеансаў Go з людзьмі і з самім сабой. Потым, у 2016 годзе, яна перамагла лепшага гульца свету Го Лі Се-Дола ў матчы сам-насам.

#2. Робататэхніка ў рэальным свеце

Людзі даўно выкарыстоўваюць робататэхніку ў вытворчых лініях, дзе задачы загадзя спланаваныя і паўтараюцца. Але калі вам трэба зрабіць універсальнага робата для рэальнага свету, дзе дзеянні не плануюцца загадзя, то гэта вялікая праблема.

Але штучны інтэлект з падтрымкай навучання з падмацаваннем можа знайсці гладкі, навігацыйны і кароткі маршрут паміж двума месцамі.

#3. Самастойныя транспартныя сродкі

Даследчыкі аўтаномных транспартных сродкаў шырока выкарыстоўваюць метад RL, каб навучыць свой штучны інтэлект:

  • Дынамічны шлях
  • Аптымізацыя траекторыі
  • Планаванне перамяшчэння, напрыклад паркоўка і змена паласы руху
  • Аптымізацыя кантролераў, (электронны блок кіравання) ECU, (мікракантролеры) MCU і г.д.
  • Сцэнарнае навучанне на аўтастрадах

#4. Аўтаматызаваныя сістэмы астуджэння

AI на аснове RL можа дапамагчы мінімізаваць энергаспажыванне сістэм астуджэння ў гіганцкіх офісных будынках, бізнес-цэнтрах, гандлёвых цэнтрах і, што асабліва важна, у цэнтрах апрацоўкі дадзеных. AI збірае даныя з тысяч датчыкаў цяпла.

Ён таксама збірае даныя аб дзейнасці людзей і машын. На аснове гэтых даных штучны інтэлект можа прадбачыць будучы патэнцыял выпрацоўкі цяпла і адпаведным чынам уключаць і выключаць сістэмы астуджэння для эканоміі энергіі.

Як наладзіць мадэль навучання з падмацаваннем

Вы можаце наладзіць мадэль RL на аснове наступных метадаў:

#1. На аснове палітыкі

Такі падыход дазваляе праграмісту штучнага інтэлекту знайсці ідэальную палітыку для максімальнага ўзнагароджання. Тут праграміст не выкарыстоўвае функцыю значэння. Пасля таго, як вы ўсталюеце метад, заснаваны на палітыцы, агент навучання з падмацаваннем спрабуе прымяніць палітыку так, каб дзеянні, якія ён выконвае на кожным этапе, дазвалялі штучнаму інтэлекту максымізаваць бонусныя балы.

У асноўным існуе два тыпы палітык:

#1. Дэтэрмінаваны: палітыка можа вырабляць аднолькавыя дзеянні ў любой дзяржаве.

#2. Стахастычны: зробленыя дзеянні вызначаюцца верагоднасцю ўзнікнення.

#2. Каштоўнасны

Падыход, заснаваны на значэнні, наадварот, дапамагае праграмісту знайсці аптымальную функцыю значэння, якая з’яўляецца максімальным значэннем у адпаведнасці з палітыкай у любым дадзеным стане. Пасля падачы заяўкі агент RL чакае доўгатэрміновага прыбытку ў адным або некалькіх штатах у адпаведнасці з згаданай палітыкай.

#3. На аснове мадэлі

Пры падыходзе RL, заснаваным на мадэлі, праграміст AI стварае віртуальную мадэль для асяроддзя. Затым агент RL перамяшчаецца па асяроддзі і вучыцца ў яго.

Тыпы навучання з падмацаваннем

#1. Пазітыўнае навучанне з падмацаваннем (PRL)

Пазітыўнае навучанне азначае даданне некаторых элементаў для павышэння верагоднасці таго, што чаканыя паводзіны паўторацца. Гэты метад навучання станоўча ўплывае на паводзіны агента RL. PRL таксама паляпшае пэўныя паводзіны вашага штучнага інтэлекту.

Тып падмацавання навучання PRL павінен падрыхтаваць ІІ да адаптацыі да змен на працягу доўгага часу. Але ўвядзенне занадта вялікай колькасці пазітыўнага навучання можа прывесці да перагрузкі станамі, што можа знізіць эфектыўнасць ІІ.

#2. Негатыўнае навучанне з падмацаваннем (NRL)

Калі алгарытм RL дапамагае штучнаму інтэлекту пазбегнуць або спыніць негатыўныя паводзіны, ён вучыцца на гэтым і паляпшае свае будучыя дзеянні. Гэта вядома як негатыўнае навучанне. Ён толькі забяспечвае штучны інтэлект абмежаваным інтэлектам толькі для задавальнення пэўных патрабаванняў паводзін.

Праверце гэта:  Чаму Chrome кажа, што гэта «кіруецца вашай арганізацыяй?»

Рэальныя выпадкі выкарыстання навучання з падмацаваннем

#1. Распрацоўшчыкі рашэнняў электроннай камерцыі стварылі персаналізаваныя інструменты для прапановаў прадуктаў ці паслуг. Вы можаце падключыць API інструмента да вашага гандлёвага сайта ў Інтэрнэце. Затым штучны інтэлект будзе вучыцца ў асобных карыстальнікаў і прапаноўваць індывідуальныя тавары і паслугі.

#2. Відэагульні з адкрытым светам валодаюць бязмежнымі магчымасцямі. Аднак за гульнявой праграмай стаіць праграма штучнага інтэлекту, якая вучыцца на ўводзе гульцоў і змяняе код відэагульні, каб адаптавацца да невядомай сітуацыі.

#3. Платформы для біржавога гандлю і інвестыцый на аснове штучнага інтэлекту выкарыстоўваюць мадэль RL, каб даведацца пра рух акцый і сусветных індэксаў. Адпаведна, яны фармулююць імавернасную мадэль, каб прапанаваць акцыі для інвестыцый або гандлю.

#4. Інтэрнэт-відэатэкі, такія як YouTube, Metacafe, Dailymotion і г.д., выкарыстоўваюць ботаў AI, навучаных на мадэлі RL, каб прапаноўваць сваім карыстальнікам персаналізаваныя відэа.

Навучанне з падмацаваннем супраць. Кантраляванае навучанне

Навучанне з падмацаваннем накіравана на тое, каб навучыць агента ІІ паслядоўна прымаць рашэнні. У двух словах, вы можаце лічыць, што выхад AI залежыць ад стану бягучага ўваходу. Аналагічным чынам, наступны ўвод у алгарытм RL будзе залежаць ад вываду мінулых уводаў.

Рабатызаваная машына на аснове ІІ, якая гуляе ў шахматы супраць чалавека-шахматыста, з’яўляецца прыкладам мадэлі машыннага навучання RL.

Наадварот, пры кантраляваным навучанні праграміст навучае агента штучнага інтэлекту прымаць рашэнні на аснове ўваходных дадзеных, уведзеных у пачатку або любога іншага першапачатковага ўводу. ШІ аўтаномнага кіравання аўтамабілем, які распазнае аб’екты навакольнага асяроддзя, з’яўляецца выдатным прыкладам навучання пад наглядам.

Навучанне з падмацаваннем супраць. Навучанне без кантролю

Да гэтага часу вы зразумелі, што метад RL прымушае агента штучнага інтэлекту вучыцца на палітыцы мадэлі машыннага навучання. Галоўным чынам, штучны інтэлект будзе рабіць толькі тыя крокі, за якія ён атрымае максімальную колькасць бонусных балаў. RL дапамагае ІІ імправізаваць шляхам спроб і памылак.

З іншага боку, пры навучанні без нагляду праграміст штучнага інтэлекту прадстаўляе праграмнае забеспячэнне штучнага інтэлекту з немаркіраванымі дадзенымі. Акрамя таго, інструктар ML нічога не паведамляе штучнаму інтэлекту пра структуру даных або што шукаць у даных. Алгарытм засвойвае розныя рашэнні шляхам каталагізацыі ўласных назіранняў за дадзенымі невядомымі наборамі даных.

Курсы падмацавання

Цяпер, калі вы вывучылі асновы, вось некалькі онлайн-курсаў для вывучэння пашыранага навучання з падмацаваннем. Вы таксама атрымліваеце сертыфікат, які можаце прадэманстраваць на LinkedIn або іншых сацыяльных платформах:

Спецыялізацыя навучання з падмацаваннем: Coursera

Вы жадаеце асвоіць асноўныя канцэпцыі навучання з падмацаваннем у кантэксце ML? Вы можаце паспрабаваць гэта Курс Coursera RL які даступны ў Інтэрнэце і пастаўляецца з магчымасцю самастойнага навучання і сертыфікацыі. Курс будзе прыдатным для вас, калі вы прынясеце з сабой наступныя навыкі:

  • Веданне праграмавання на Python
  • Асноўныя статыстычныя паняцці
  • Вы можаце канвертаваць псеўдакоды і алгарытмы ў коды Python
  • Вопыт распрацоўкі праграмнага забеспячэння ад двух да трох гадоў
  • Студэнты другога курса ў галіне інфарматыкі таксама маюць права

Курс мае рэйтынг 4,8 зоркі, і больш за 36 тысяч студэнтаў ужо запісаліся на розныя курсы. Акрамя таго, курс пастаўляецца з фінансавай дапамогай пры ўмове, што кандыдат адпавядае пэўным крытэрам прыдатнасці Coursera.

Праверце гэта:  Кіраўніцтва для пачаткоўцаў па сертыфікацыі CSPO [+7 Courses]

Нарэшце, Інстытут машыннага інтэлекту Альберта пры Універсітэце Альберты прапануе гэты курс (залік не прысуджаецца). Паважаныя выкладчыкі ў галіне інфарматыкі будуць працаваць у якасці выкладчыкаў курса. Пасля заканчэння курса вы атрымаеце сертыфікат Coursera.

Навучанне AI Reinforcement у Python: Udemy

Калі вы захапляецеся фінансавым рынкам або лічбавым маркетынгам і жадаеце распрацаваць інтэлектуальныя пакеты праграмнага забеспячэння для гэтых абласцей, вы павінны праверыць гэта Курс Udemy па РЛ. Акрамя асноўных прынцыпаў RL, змест навучання таксама навучыць вас распрацоўваць рашэнні RL для інтэрнэт-рэкламы і біржавога гандлю.

Некаторыя вядомыя тэмы, якія ахопліваюць курс:

  • Агляд высокага ўзроўню RL
  • Дынамічнае праграмаванне
  • Манэ Карла
  • Метады апраксімацыі
  • Праект біржавога гандлю з RL

Больш за 42 тысяч студэнтаў наведалі курс да гэтага часу. Інтэрнэт-навучальны рэсурс у цяперашні час мае рэйтынг 4,6 зоркі, што вельмі ўражвае. Акрамя таго, курс накіраваны на абслугоўванне сусветнай студэнцкай супольнасці, паколькі змест навучання даступны на французскай, англійскай, іспанскай, нямецкай, італьянскай і партугальскай мовах.

Глыбокае навучанне з падмацаваннем у Python: Udemy

Калі ў вас ёсць цікаўнасць і ёсць базавыя веды аб паглыбленым навучанні і штучным інтэлекце, вы можаце паспрабаваць гэты прасунуты RL курс у Python з Удэмы. З рэйтынгам студэнтаў 4,6 зоркі гэта яшчэ адзін папулярны курс для вывучэння RL у кантэксце AI/ML.

Курс складаецца з 12 раздзелаў і ахоплівае наступныя важныя тэмы:

  • OpenAI Gym і асноўныя метады RL
  • ТД Лямбда
  • A3C
  • Тэано Асновы
  • Асновы Tensorflow
  • Кадаванне Python для пачаткоўцаў

Увесь курс запатрабуе ўкладанняў у 10 гадзін 40 хвілін. Акрамя тэкстаў, ён таксама змяшчае 79 экспертных лекцый.

Эксперт па глыбокаму падмацаванню навучання: Udacity

Хочаце навучыцца пашыранаму машыннаму навучанню ў сусветных лідэраў у галіне AI/ML, такіх як Nvidia Deep Learning Institute і Unity? Udacity дазваляе ажыццявіць вашу мару. Праверце гэта Глыбокае навучанне з падмацаваннем курс, каб стаць экспертам па ML.

Тым не менш, вам трэба мець вопыт прасунутага Python, прамежкавай статыстыкі, тэорыі верагоднасцей, TensorFlow, PyTorch і Keras.

Каб завяршыць курс, спатрэбіцца ўважлівае навучанне да 4 месяцаў. На працягу ўсяго курса вы даведаецеся такія важныя алгарытмы RL, як Deep Deterministic Policy Gradients (DDPG), Deep Q-Networks (DQN) і г.д.

Заключнае слова

Навучанне з падмацаваннем – наступны крок у развіцці ІІ. Агенцтвы па распрацоўцы штучнага інтэлекту і ІТ-кампаніі ўкладваюць інвестыцыі ў гэты сектар, каб стварыць надзейныя і надзейныя метадалогіі навучання штучнаму інтэлекту.

Нягледзячы на ​​​​тое, што RL значна прасунуўся, ёсць больш магчымасцей для развіцця. Напрыклад, асобныя агенты RL не дзеляцца ведамі паміж сабой. Такім чынам, калі вы навучаеце праграму ваджэнню аўтамабіля, працэс навучання будзе павольным. Паколькі такія агенты RL, як выяўленне аб’ектаў, спасылкі на дарогі і г.д., не будуць абменьвацца дадзенымі.

Ёсць магчымасці ўкласці свой творчы патэнцыял і вопыт ML у такія задачы. Запісаўшыся на онлайн-курсы, вы зможаце паглыбіць свае веды пра перадавыя метады RL і іх прымяненне ў рэальных праектах.

Яшчэ адно адпаведнае навучанне для вас – гэта адрозненні паміж ІІ, машынным навучаннем і глыбокім навучаннем.