Lstm Là Gì

     

Giới thiệu về LSTM

Bài trước bản thân đã reviews về recurrent neural network (RNN). RNN có thể xử lý thông tin dạng chuỗi (sequence/ time-series). Như ở bài dự đoán hành vi trong đoạn clip ở bài trước, RNN có thể mang tin tức của frame (ảnh) tự state trước tới những state sau, rồi nghỉ ngơi state cuối là sự phối kết hợp của toàn bộ các ảnh để dự đoán hành vi trong video.

Bạn đang xem: Lstm là gì


*

Các gọi biểu đồ dùng trên: chúng ta nhìn thấy kí hiệu sigma, tanh ý là cách đấy cần sử dụng sigma, tanh activation function. Phép nhân ở đây là element-wise multiplication, phép cộng là cộng ma trận.

f_t, i_t, o_t tương xứng với forget gate, input gate cùng output gate.

Forget gate: displaystyle f_t = sigma(U_f*x_t + W_f*h_t-1 + b_f)Input gate: displaystyle i_t = sigma(U_i*x_t + W_i*h_t-1 + b_i) đầu ra gate: displaystyle o_t = sigma(U_o*x_t + W_o*h_t-1 + b_o)

thừa nhận xét: 0 ; b_f, b_i, b_o là những hệ số bias; hệ số W, U giống như trong bài xích RNN.

displaystyle ildec_t = anh(U_c*x_t + W_c*h_t-1 + b_c) , cách này giống hệt như tính s_t vào RNN.

displaystyle c_t = f_t * c_t-1 + i_t * ildec_t, forget gate quyết định xem nên lấy bao nhiêu từ cell state trước cùng input gate sẽ quyết định lấy bao nhiêu từ đầu vào của state và hidden layer của layer trước.

displaystyle h_t = o_t * tanh(c_t), output gate đưa ra quyết định xem phải lấy bao nhiêu từ cell state để trở thành output của hidden state. Trong khi h_t cũng được dùng nhằm tính ra output đầu ra y_t mang lại state t.

Xem thêm: Tần Suất Là Gì - Khái Niệm Biểu Đồ, Tần Suất

Nhận xét: h_t, ildec_t khá kiểu như với RNN, nên model có short term memory. Trong những khi đó c_t giống như một băng chuyền làm việc trên mô hình RNN vậy, thông tin nào cần quan trọng đặc biệt và cần sử dụng ở sau sẽ được gửi vào và sử dụng khi yêu cầu => rất có thể mang tin tức từ đi xa=> long term memory. Vày đó quy mô LSTM gồm cả short term memory với long term memory.


*
cell state vào LSTM

LSTM chống vanishing gradient

*

Ta cũng áp dụng thuật toán back propagation through time cho LSTM tựa như như RNN.

Thành phần bao gồm gây là vanishing gradient trong RNN là displaystyle fracpartial s_t+1partial s_t = (1-s_t^2) * W , trong những số ấy s_t, W .

Tương tự vào LSTM ta suy xét displaystyle fracpartial c_tpartial c_t-1 =f_t. Vì 0 bắt buộc về cơ bạn dạng thì LSTM vẫn bị vanishing gradient tuy thế bị thấp hơn so với RNN. Hơn thế nữa, lúc mang tin tức trên cell state thì ít khi cần được quên quý hiếm cell cũ, đề nghị f_t approx 1 => Tránh được vanishing gradient.

Xem thêm: Nghĩa Của Từ Knit Là Gì - Ưu Điểm Và Nhược Điểm Của Vải Dệt Kim Knit

Do đó LSTM được dùng thịnh hành hơn RNN cho các toán tin tức dạng chuỗi. Bài xích sau bản thân sẽ giới thiệu về vận dụng LSTM mang đến image captioning.