Репост из: mina_rabti
پردازش متن در پایتون
اگر پروژهای در زمینه پردازش زبان طبیعی انجام داده باشید، میدانید که مراحل پیشپردازش چقدر خستهکننده است. قبل از شروع آموزش مدل باید:
• دادهها را از دیسک بخوانید.
• جملات را Tokenize کنید.
• یک نگاشت از هر کلمه به یک عدد صحیح و منحصربهفرد ایجاد کنید.
• متن را به لیستی از اعداد صحیح تبدیل کنید.
• دادهها را به هر شکلی که فریمورک یادگیری عمیق شما نیاز دارد load کنید.
• متن را pad کنید تا تمامی دنبالهها به یک اندازه باشند، تا بتوانید آنها را به صورت یک batch پردازش کنید.
Torchtext در پایتورچ، کتابخانهای است که پروسههای بالا را بسیار سادهتر میکند. اگرچه این کتابخانه نسبتا جدید است. اما عملکرد آسان آن، خصوصاً در Batching و Loading، آن را به کتابخانهای ارزشمند تبدیل کردهاست.
#nlp
#python
@datalook_ir
اگر پروژهای در زمینه پردازش زبان طبیعی انجام داده باشید، میدانید که مراحل پیشپردازش چقدر خستهکننده است. قبل از شروع آموزش مدل باید:
• دادهها را از دیسک بخوانید.
• جملات را Tokenize کنید.
• یک نگاشت از هر کلمه به یک عدد صحیح و منحصربهفرد ایجاد کنید.
• متن را به لیستی از اعداد صحیح تبدیل کنید.
• دادهها را به هر شکلی که فریمورک یادگیری عمیق شما نیاز دارد load کنید.
• متن را pad کنید تا تمامی دنبالهها به یک اندازه باشند، تا بتوانید آنها را به صورت یک batch پردازش کنید.
Torchtext در پایتورچ، کتابخانهای است که پروسههای بالا را بسیار سادهتر میکند. اگرچه این کتابخانه نسبتا جدید است. اما عملکرد آسان آن، خصوصاً در Batching و Loading، آن را به کتابخانهای ارزشمند تبدیل کردهاست.
#nlp
#python
@datalook_ir