Rnn

Isang Kritikal na Pagsusuri sa paulit-ulit na Mga Neural Networks para sa Sequence Learning

Critical Review Od Recurrent Neural Networks



Pagbibigay-kahulugan ng Isang Kritikal na Pagsuri sa Mga Nauulit na Neural Networks para sa Sequence Learning

Pangkalahatang nilalaman sa isang sulyap

imahe
Mayroong ilang mga umiiral na pagsusuri sa mga network tulad ng RNN, at ang mga simbolo sa pagitan ng mga papel ay hindi tumutugma. Ang dokumentong ito ay isang pagsusuri para sa RNN. Simula mula sa pinakasimpleng feedforward neural network, ipinakilala ng may-akda ang kasaysayan at pag-unlad ng RNN, ang istraktura ng LSTM at ang aplikasyon ng modernong RNN naman.

Feedforward neural network

imahe
Ang tradisyonal na feedforward neural network, ang impormasyon ay maaari lamang dumaloy mula sa input layer patungo sa nakatagong layer, at pagkatapos ay sa layer ng output. Bagaman maaari itong magsagawa ng pag-uuri at pagbabalik, ang mga ito ay ipinapalagay na iid sa pagitan ng data (Malaya at magkapareho na ibinahagi), dahil hindi nila mahawakan ang mga problema sa pagkakasunud-sunod na nakasalalay sa data, hindi nila malulutas ang problema sa oras.



Ang maagang kasaysayan at pag-unlad ng RNN

Ang RNN ay hindi ang unang modelo na kumuha ng pagtitiwala sa oras. Ang paglitaw ng Nakatagong Markov Model (HMM) ay ginagawang malutas ang problema masiyahan ang dalawang mga kondisyon: (1) Ang problema ay batay sa pagkakasunud-sunod, tulad ng serye ng oras o pagkakasunud-sunod ng estado (2) Ang problema ay naglalaman ng dalawang uri ng data, isang uri ng ang data ng pagkakasunud-sunod ay napapansin, samakatuwid, ang pagkakasunud-sunod ng pagmamasid at ang iba pang uri ng data ay hindi napapansin, katulad ng nakatagong pagkakasunud-sunod ng estado, tinukoy bilang pagkakasunud-sunod ng estado.



Ipinapakita ng sumusunod na larawan ang proseso ng pag-unlad ng RNN. Ang network ng Jordan at Elman network ang nagbukas ng daan para sa paglitaw ng LSTM sapagkat sinimulan nilang kunin ang nakatagong layer bilang input. Ang pagkakaiba sa pagitan ng network ng Jordan at ng network ng Elman ay namamalagi sa kung aling layer ang na-loop. Pinili ni Jordan ang output layer, habang pinili ni Elman ang nakatagong layer.



imahe

Modernong RNN-Istraktura ng LSTM

Ang nakatagong layer ng orihinal na RNN ay kumakatawan lamang sa estado h ng panandaliang memorya, na kung saan ay napaka-sensitibo sa panandaliang pag-input LSTM ay nagdaragdag ng isang yunit ng estado c upang mapanatili ang pangmatagalang memorya. Tulad ng ipinakita sa ibaba:
imahe
Tumatakbo ang unit state c kasama ang buong kadena mula simula hanggang dulo, na may kaunting linear na pakikipag-ugnayan lamang sa gitna, at patuloy na dumadaloy ang impormasyon kasama nito. Tulad ng ipinakita sa ibaba:
imahe
Ang sumusunod na figure ay ang diagram ng istraktura ng LSTM, kung saan ang g ang pag-aktibo ng input ng yunit, ako ang pag-aktibo ng input ng gate, f ang kalimutan na pagsasaaktibo ng gate, o ang pag-activate ng gate ng output, at ang memorya ng unit ng estado, h ang output
imahe
Paglalarawan sa matematika:
imaheAng estado ng s ay maaaring maunawaan bilang pagpaparami ng lumang estado s_t-1 at f_t, itapon ang impormasyong natukoy na itatapon, at pagdaragdag ng i_t * g_t bilang isang bagong halaga ng kandidato upang mai-update ang estado.

Detalyadong istraktura ng LSTM

imahe
** LSTM input: ** ang input na halaga x_t ng network sa kasalukuyang oras t, ang halaga ng output h_t-1 ng network sa huling oras at ang estado ng cell na c_t-1 sa huling oras



** Output: ** Ang halaga ng output h_t ng network sa kasalukuyang oras t at ang estado ng cell na c_t sa kasalukuyang oras t.

** Nakalimutang Gate: ** Nakuha ito mula sa kasalukuyang input x_t at ang output h_t-1 sa nakaraang oras, at tinutukoy kung magkano ang cell state c_t-1 sa nakaraang oras ay maaaring mai-save sa kasalukuyang oras, at kontrolin ang antas ng pagkalimot sa impormasyon

Input gate : Magdagdag ng bagong impormasyon sa estado ng yunit upang matukoy kung magkano sa kasalukuyang input ng network na x_t ang maaaring mai-save sa c_t

Output gate : Ilan sa katayuan ng control unit ang maaaring ma-output bilang h_t.

bilang konklusyon

Ang mga paulit-ulit na neural network ay nagtagumpay sa matinding mga limitasyon na ipinataw ng tradisyunal na mga pamamaraan ng pag-aaral ng makina sa data, at ang palagay ng kalayaan sa pagitan ng magkakasunod na mga pagkakataon ay nasira. Kapag gumagamit ng mga network tulad ng LSTM, mahahanap namin na ang pag-unlad ay nagmumula sa isang bagong arkitektura sa halip na isang panimulang bagong algorithm. Halimbawa, mula sa RNN hanggang LSTM, upang malutas ang problema ng pagkawala ng gradient ng RNN, isang pinto ay idinagdag sa orihinal na arkitektura Ang istraktura ng LSTM ay nabuo.
At ngayon may mga bagong pamamaraan upang malutas ang problema sa pagkakasunud-sunod, tulad ng mekanismo ng Atensyon at Transformer.