Hvorfor lstm løser forsvindende gradient?

Indholdsfortegnelse:

Hvorfor lstm løser forsvindende gradient?
Hvorfor lstm løser forsvindende gradient?

Video: Hvorfor lstm løser forsvindende gradient?

Video: Hvorfor lstm løser forsvindende gradient?
Video: Recurrent Neural Networks (RNNs), Clearly Explained!!! 2024, Oktober
Anonim

LSTM'er løser problemet ved hjælp af en unik additiv gradientstruktur, der inkluderer direkte adgang til glemportens aktiveringer, hvilket gør det muligt for netværket at tilskynde til ønsket adfærd fra fejlgradienten ved hjælp af hyppige gates-opdateringer på hvert trin i læringsprocessen.

Hvordan løser LSTM eksploderende gradient?

Et meget kort svar: LSTM afkobler celletilstand (typisk betegnet med c) og skjult lag/output (typisk betegnet med h), og laver kun additive opdateringer til c, hvilket gør hukommelser i c mere stabile. Således er gradienten gennem c bevaret og svær at forsvinde (derfor er den overordnede gradient svær at forsvinde).

Hvordan kan forsvindende gradientproblem løses?

Løsninger: Den enkleste løsning er at bruge andre aktiveringsfunktioner, såsom ReLU, som ikke forårsager en lille afledning. Restnetværk er en anden løsning, da de giver resterende forbindelser direkte til tidligere lag.

Hvilket problem løser LSTM?

LSTM'er. LSTM (forkortelse for langtidshukommelse) løser primært problemet med forsvindende gradient i backpropagation. LSTM'er bruger en portmekanisme, der styrer huskeprocessen. Oplysninger i LSTM'er kan lagres, skrives eller læses via porte, der åbner og lukker.

Hvorfor LSTM'er forhindrer dine gradienter i at forsvinde fra udsigten fra det baglæns pas?

Årsagen til dette er, fordi for at håndhæve dette konstante fejlflow, blev gradientberegningen afkortet for ikke at flyde tilbage til input- eller kandidatportene.

Anbefalede: