الگوریتم اسمیت (SMITH) گوگل چیست؟
گوگل جدیدا مقاله تحقیقی در مورد الگوریتم جدید به نام SMITH منتشر کرده است که این را ادعا میکند برای درک سوالات طولانی و اسناد طولانی از BERT خیلی بهتر عمل میکند.
به طور کلی، چیزی که این مدل جدید را بهتر میکند این است که قادر به درک قسمتهای داخلی مستندات است به همان روشی که BERT کلمات و جملات را متوجه میشود و به همین علت باعث میشود که الگوریتم قادر شود اسناد طولانیتر را درک کند.
در تاریخ ۳ نوامبر سال ۲۰۲۰، در مورد یکی از الگوریتمهای گوگل به نام SMITH آمد که میتواند از BERT بسیار بهتر عمل کند.به نظر میرسد که SMITH یک الگوریتم مهم است و سزاوار یک صحبت و بحث متفکرانه میباشد، در این مقاله درباره این الگوریتم و کاربردهای آن صحبت خواهیم کرد. پس در ادامه با بلاگ مهدی عراقی ما همراه باشید.
آیا الگوریتم SMITH مورد استفادهی گوگل قرار میگیرد؟
گوگل به طور واضح نمیگوید که از چه الگوریتمهایی استفاده میکند.
محققان میگویند که الگوریتم SMITH از الگوریتم BERT هم بهتر عمل میکند، اما تا زمانی که گوگل به طور رسمی اعلام نکرده که الگوریتم SMITH برای درک صفحات وب در حال استفاده قرار گرفته است، گفتن اینکه آیا الگوریتم SMITH مورد استفاده توسط گوگل قرار میگیرد یا خیر، گمانه زنیهایی دارد.
الگوریتم SMITH چیست؟
SMITH الگوریتم جدیدی است که در تلاش، برای درک کردن کامل اسناد میباشد. مدلهایی همانند الگوریتم BERT برای درک کلمات در متون جملات آموزشی استفاده میشوند. در یک توصیف بسیار آسان، مدل SMITH آموزش داده شده است تا قسمتهایی از متن کل سند را درک کند.
در حالی که الگوریتمهایی همانند BERT در مجموعه دادهها آموزش داده میشوند تا کلمات مخفی تصادفی را از متن درون جملات پیش بینی کنند اما الگوریتم SMITH آموزش داده می شود که پیش بینی کند مجموعه بعدی جملات چیست.
به گفته محققان، این نوع آموزش به الگوریتم SMITH میتواند کمک کند تا اسناد بزرگتر را بهتر از الگوریتم BERT را درک کرده و بفهمد.
الگوریتم BERT چه محدودیتهایی را دارد؟
آنها به اینگونه نواقص BERT را ارائه میدهند:
“در سالهای اخیر، مدلهای مبتنی بر توجه به خود مانند: مبدلها و الگوریتم BERT در کار تطبیق متن پیشرفت چشمگیری را رقم زدند.
با این وجود، به دلیل پیچیدگی محاسباتی درجه دوم ، با توجه به اندازه متن ورودی، این مدلها و مبدلها هنوز محدود به متن کوتاهه چند جملهای یا یک پاراگرافی هستند و این یک نوع محدودیت به شمار میآید.
در این مقاله، ما با پیشنهاد رمزگذار مبتنی بر ترانسفورماتور سیامی SMITH برای تطبیق طولانی مدت سند، به این مسئله خواهیم پرداخت. به گفته محققان، الگوریتم BERT محدود به درک اسناد کوتاه مدت است.
به دلایل مختلفی که در مقاله تحقیق توضیح داده شده است، الگوریتم BERT برای درک اسناد بلند مدت مناسب نیست. محققان، الگوریتم SMITH را پیشنهاد میدهند که به گفته آنها با اسناد طولانیتر از الگوریتم BERT عمل میکند.
چرا اسناد طولانیتر دشوار هستند؟
محققان توضیح میدهند که چرا اسناد طولانیتر دشوار هستند:
به چند دلیل، مطابقت معنایی بین متنهای طولانی یک کار چالش برانگیز وجود دارد:
- وقتی هر دو متن طولانی هستند، تطبیق آنها درک دقیقتری از روابط معنایی از جمله الگوی تطبیق بین قطعات متن با فاصله زیاد است.
- مستندات طولانی شامل ساختار داخلی هستند، مانند بخشها، متنها و جملات هستند.
برای خوانندگان، ساختار اسناد اصولا نقش اساسی و مهمی در درک مطلب دارند. به همین علت، یک مدل برای عملکرد قابل قبول، تطبیق اسناد را نیز باید، اطلاعات ساختار سند قرار دهد.
- پردازش متون طولانی احتمالاً باعث ایجاد موارد عملی مانند خارج از حافظه TPU و GPU بدون طراحی دقیق مدل میشود.
متن ورودی بزرگتر
الگوریتم BERT محدود به کوتاه بودن اسناد است. همچنین در پایین خواهید دید که الگوریتم SMITH هرچه طولانیتر باشد، عملکرد نسبتا بهتری را خواهد داشت. این یک نقص شناخته شده با الگوریتم BERT است.
محققان اینگونه توضیح میدهند:
واقعیت این است که الگوریتم SMITH قادر به انجام کاری است که الگوریتم BERT توانایی انجام آن را ندارد، همان چیزی است که مدل SMITH را بسیار مجذوب کننده کرده است. مدل SMITH جایگزین BERT نمیشود. مدل SMITH با انجام سنگین وزنه برداری که BERT قادر به انجام آن نیست، BERT را مکمل خود میکند.
محققان آن را آزمایش کردند و گفتند:
نتایج تجربی ما در چندین مجموعه داده معیار برای مطابقت طولانی مدت اسناد نشان میدهد که مدل SMITH پیشنهادی ما نسبت به مدلهای پیشرفته قبلی از جمله توجه سلسله مراتبی، شبکه عصبی عادی سلسله مراتبی مبتنی بر توجه depth و BERT بهتر عمل میکند. .
در مقایسه با خطوط مبنای BERT، الگوریتم SMITH قادر است حداکثر طول متن ورودی را از ۵۱۲ به ۲۰۴۸ ارتقا دهد.
تطبیق طولانی تا طولانی
اگر من مقاله تحقیق را به درستی درک میکنم، مقاله تحقیق بیان میکند که مشکل تطبیق پرس و جوهای طولانی با محتوای طولانی به اندازه کافی بررسی نشده است.
به گفته محققان:
«تطبیق معنایی بین جفت اسناد طولانی، که دارای بسیاری از کاربردهای مهم مانند توصیههای خبری، توصیه مقاله مرتبط و دستهبندی اسناد است بعضا کمتر تحت بررسی قرار میگیرد و نیاز به بررسی و توجه بیشتری دارد.»
بعداً در این سند، آنها اظهار داشتند که برخی مطالعات انجام شده است که نزدیک به آنچه آنها تحقیق میکنند، بوده است. اما به نظر میرسد در تحقیق در مورد روشهای تطبیق سوالهای طولانی با اسناد بزرگ یک گودال وجود دارد. این مسئلهی بسیار مهمی است که محققان با استفاده از الگوریتم SMITH در حال درست کردن آن هستند.
جزئیات گوگل SMITH
ما به عمق جزئیات الگوریتم SMITH نمیپردازیم اما برخی از ویژگیهای کلی را که وضوح بالایی از آنچه در آن است را بیان خواهیم کرد. این سند توضیح خواهد داد که آنها از یک مدل قبل از آموزش استفاده میکنند که شبیه الگوریتم BERT و بسیاری از الگوریتمهای دیگر است. اول مقداری اطلاعات پیش زمینه داشته باشید تا سند معنای بیشتری پیدا کند.
الگوریتم قبل از آموزش
پیش آموزش جایی است که یک الگوریتم روی یک مجموعه داده ، آموزش داده میشود. برای پیش آموزش معمول این نوع الگوریتمها، مهندسان کلمات تصادفی را درون جملات مخفی میکنند. «الگوریتم سعی میکند کلمات نقاب دار را پیش بینی کند»
به عنوان مثال:
اگر جملهای به این صورت نوشته شود: «سلام____علی هستم»، الگوریتم هنگام آموزش کامل ممکن است پیش بینی کند، «من» آن کلمه گمشده است. الگوریتم یاد میگیرد که در نهایت بهینهسازی شود تا در دادههای آموزش مرتکب اشتباه کمتری شود. پیش آموزش به منظور آموزش دقیق بودن یا اشتباه بودن دستگاه انجام میشود.
این مقاله چه میگوید:
«SMITH با الهام از موفقیت اخیر روشهای پیش آموزش مدل زبان مانند BERT، همچنین الگوی» آموزش بدون نظارت و تنظیم دقیق “برای آموزش مدل را تصویب میکند.
برای پیش آموزش مدل SMITH، ما علاوه بر وظیفه اصلی مدلسازی زبان کلمهای مخفی، وظیفه مدلسازی زبان بلوک جملهای مخفی را نیز پیشنهاد میدهیم. ” بلوک جملات در پیش آموزش مخفی است.
“وقتی متن ورودی زیاد میشود، هر دو رابطه بین کلمات در یک بلوک جملهای و روابط بین بلوکهای جمله در یک سند برای درک محتوا مهم میشوند. ما در حین پیش آموزش مدل، کلمات و بلوکهای جمله را که به طور تصادفی انتخاب کرده ایم، مخفی میکنیم.
محققان در ادامه با جزئیات بیشتری توضیح میدهند که چگونه این الگوریتم از الگوریتم BERT فراتر و فراتر میرود و خواهد رفت. کاری که آنها انجام میدهند این است که آموزش را افزایش میدهند تا فراتر از آموزش کلمه برای استفاده از جملات استفاده کنند.
نحوه تشریح آن در سند تحقیق به شرح زیر میباشد:
مدل SMITH برای پیش بینی مجموعه جملات آموزش دیده میشود. احساس ما در مورد آن بسیار جالب است. این الگوریتم یادگیری روابط بین کلمات و سپس تراز کردن برای یادگیری متن مجموعه جملات و نحوه ارتباط آنها با یکدیگر در یک سند طولانیتر است.
نتایج آزمون SMITH
محققان متذکر شدند که الگوریتم SMITH با اسناد متنی طولانیتر عملکرد بهتری خواهد داشت.
«مدل SMITH که در مقایسه با سایر مدلهای استاندارد توجه به خود از طول متن ورودی طولانیتری برخوردار است، انتخاب بهتری برای یادگیری است.» در آخر، محققان این نتیجه را گرفتند که الگوریتم SMITH برای اسناد طولانی خوبتر از الگوریتم BERT کار میکند.
چرا مقاله تحقیقاتی SMITH مهم است؟
یکی از دلایلی که ما خواندن مقالههای پژوهشی را نسبت به حق ثبت اختراع ترجیح میدهیم این است که مقالات تحقیق جزئیاتی را در مورد اینکه آیا الگوریتم SMITH پیشنهادی بهتر از الگوریتمهای موجود و پیشرفته است، به اشتراک میگذارند. بسیاری از مقالات پژوهشی نتیجه گیری میکنند که کار و تلاش بیشتری باید انجام شود.
برای ما این بدان معنی است که آزمایش الگوریتم امیدوار کننده است اما احتمالاً آماده نیست تا در یک محیط زنده قرار گیرد. درصد کمتری از مقالات تحقیقاتی میگویند که نتایج بهتر از سطح هنر هستند.
اینها مقالههای پژوهشی هستند که به نظر ما ارزش قابل توجهی به آنها را دارند، زیرا احتمال دارد که به یکی از الگوریتمهای گوگل تبدیل شوند. وقتی میگوییم likelier، منظور ما این نیست که الگوریتم در الگوریتمهای گوگل است یا خواهد بود.
منظور ما این است که، در مقایسه با آزمایشهای دیگر الگوریتم، مقالاتی که ادعا میکنند از عملکرد روز بهتر عمل میکنند به احتمال زیاد آن را به الگوریتم گوگل تبدیل میکنند. الگوریتم SMITH برای اسناد فرم طولانی از BERT بهتر عمل میکند.
با توجه به نتیجه گیریهای انجام شده در مقالههای تحقیق، الگوریتم SMITH برای درک محتوای طولانی از بسیاری از الگوریتمها و مدلها از جمله الگوریتم BERT پیشی میگیرد.
“نتایج آزمایشی چندین مجموعه داده معیار نشان میدهد که مدل SMITH پیشنهادی ما نسبت به مدلهای قبلی پیشرفته تطبیق سیامی از جمله HAN، SMASH و BERT برای مطابقت طولانی اسناد بهتر عمل میکند.
آیا الگوریتم SMITH استفاده میشود؟
همانطور که قبلاً گفتیم، تا زمانی که گوگل به صراحت اعلام نکند از الگوریتم SMITH استفاده میکند، هیچ راهی برای اثبات دقیق اینکه الگوریتم SMITH در گوگل استفاده میشود وجود نخواهد داشت.
گفته شد، مقالاتی که به احتمال زیاد مورد استفاده قرار نمیگیرند، مقالههایی خواهند بود که به درستی بیان میکنند که یافتهها اولین قدم به سمت نوع تازه ای از الگوریتم خواهد بود و تحقیقات و بررسی بیشتری نیاز است.
در این مقاله تحقیقاتی چنین نیست. نویسندگان مقاله تحقیقاتی با اطمینان اظهار داشتند که الگوریتم SMITH برای درک محتوای طولانی ، سطح هنر را شکست خواهد داد.
اطمینان به نتایج و عدم وجود اظهار نظر در مورد نیاز به تحقیقات بیشتر، این مقاله را جالبتر از سایر مطالب میکند و بنابراین در صورت قرار گرفتن در الگوریتم گوگل در آینده یا در حال حاضر، ارزش شناخت را دارد.
جمعبندی و نتیجه گیری
به طور کلی، چیزی که این مدل جدید را بهتر میکند این است که قادر به درک قسمتهای داخلی مستندات می باشد ، به همان روشی که BERT کلمات و جملات را متوجه میشود و به همین علت باعث میشود که الگوریتم قادر شود اسناد طولانیتر را درک کند.
بنابراین ، میتوان گفت که الگوریتم SMITH از الگوریتم BERT بسیار بهتر است ، زیرا الگوریتم SMITH با اسناد متنی طولانیتر عملکرد بهتری نسبت به الگوریتم BERT دارد.