داغ! xLSTM تو حوزه تصویر هم حرفی برای گفتن داره
تو این پست (حتما بخون) در مورد اینکه #LSTM با رویکرد جدید اومده و تو حوزه متن خیلی سر و صدا کرده گفتیم، حالا #xLSTM تو حوزه ویژن هم حرفی واسه گفتن داره و با مدلی بنام #ViL معرفی شده.
از لحاظ کارایی هم عملکرد مطلوبی از خودش نشون داده و قابل قیاس با شبکههایی مثل #ViT یا #DeiT هست.
رویکردش درمورد داده تصویری جالبه!
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
تو این پست (حتما بخون) در مورد اینکه #LSTM با رویکرد جدید اومده و تو حوزه متن خیلی سر و صدا کرده گفتیم، حالا #xLSTM تو حوزه ویژن هم حرفی واسه گفتن داره و با مدلی بنام #ViL معرفی شده.
از لحاظ کارایی هم عملکرد مطلوبی از خودش نشون داده و قابل قیاس با شبکههایی مثل #ViT یا #DeiT هست.
رویکردش درمورد داده تصویری جالبه!
We introduce Vision-LSTM (ViL), an adaption of xLSTM to computer vision. In order to adjust xLSTM (an autoregressive model) to better handle non-autoregressive inputs such as images, we employ alternating bi-directional mLSTM blocks. Odd blocks process the image row-wise from top left to bottom right, while even blocks process the image from bottom right to top left.
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید