icon

دکتر وهاب میررکنی

علم و فناوری اطلاعات و ارتباطات

سال تولد :

1979

محل تولد :

ایران

اثر :

طرح هش حساس به مجاورت مبتنی بر توزیع‌های p-پایدار

زندگی‌نامه

سفر یک ذهن کنجکاو در میان داده‌ها 
سفر و جست‌وجوی ذهن هر پژوهشگر، شبکه‌ای از سؤال‌ها، تجربه‌ها و آزمون‌هاست که مسیر علم را شکل می‌دهد. وهاب میررکنی این مسیر را از دفترچه‌ای پر از مسائل در دوران کودکی آغاز کرد و سپس از کلاس‌های مدرسه و مسابقات روباتیک به دانشگاه‌های معتبر جهان و آزمایشگاههای تحقیقاتی بزرگ رسید. تجربه‌های متعدد او نشان می‌دهد که پیشرفت علمی نه یک مسیر خطی، بلکه شبکه‌ای از کشف‌ها، آزمون‌ها و تجارب متنوع است که همواره در تعامل با مسائل واقعی زندگی شکل می‌گیرد.
مسیر علمی او از کلاس‌های مدرسه تا دانشگاه و تحقیقات صنعتی، همواره با کشف و چالش همراه بوده است. او در کلاس‌های دبیرستان استعدادهای درخشان کرج ساعت‌ها با دشوارترین پرسش‌ها دست و پنجه نرم می‌کرد. مسابقات المپیاد و رقابت‌های جهانی RoboCup، نخستین میدانهای رشد او بودند؛ جایی که آموخت اعتماد به نفس و کار تیمی، زیربنای هر موفقیت بزرگ است. هنوز هم روزی را به یاد دارد که گروهشان در اروپا مقام اول را کسب کرد. برای او، ارزشمندتر از مدال‌ها، تجربه عمیق همکاری و خودباوری بود.
ورود به دانشگاه مسیر او را از آموزش‌های معمولی جدا کرد و به دانشگاه صنعتی شریف راه یافت؛ جایی که پروژه‌ها، مسابقات برنامه‌نویسی و روباتیک، عشقش به الگوریتمها را عمق بیشتری بخشید. این تجربیات، او را با راه‌حل‌های خلاقانه برای مسائل پیچیده آشنا کرد. این عادت بعدها در پژوهش‌هایش به الگویی ثابت تبدیل شد: خرد کردن مسائل به بخش‌های کوچک، تحلیل دقیق و بازسازی آن‌ها در ابعادی نو. در همین دانشگاه بود که فهمید باید آیندهاش را در علوم نظری کامپیوتر بسازد؛ انتخابی که او را در سال 2005، به دانشگاه MIT در بوستون رساند. در میان ذهن‌های درخشان، غرق در دنیای علوم نظری کامپیوتر شد؛ محیطی که نه‌تنها به او آموخت چگونه عمیقتر بیندیشد، بلکه به او یاد داد علم زمانی ارزشمند است که با زندگی واقعی پیوند بخورد.
راهی به سوی نوآوری در جهان
پس از فارغ‌التحصیلی از MIT، کار در آمازون و مایکروسافت ریسرچ برای میررکنی به‌عنوان یک آزمایشگاه زنده عمل کرد؛ جایی که باید الگوریتمهای نظری را به راه‌حل‌هایی تبدیل می‌کرد که میلیونها کاربر روزانه با آن‌ها سروکار دارند؛ اما مقصد اصلی‌اش گوگل ریسرچ بود؛ جایی که بیش از یک دهه در پروژه‌های بزرگ و در مقیاس‌های عظیم فعال است. در اینجا با داده‌هایی کار می‌کند که گاهی به اندازه کل جمعیت زمین به هم مرتبط هستند. این تجربه مدام به او یادآوری می‌کند که علم زمانی معنا دارد که بتواند از دل تئوری، راه‌حلی برای واقعیت بیرون بکشد. او اکنون ریاست گروه‌های تحقیقاتی الگوریتم‌ها در نیویورک را نیز بر عهده دارد. پروژه‌های او از الگوریتم‌های بازار و بهینه‌سازی در مقیاس بزرگ تا گراف‌کاوی و پروژه‌های نسل جدید AI مانند Gemini AI  گسترده است. دنیای هوش مصنوعی برای او همواره یک ماجراجویی تازه است. هر ماه مدل‌ها و روش‌های جدیدی معرفی می‌شوند که مرزهای تخیل دیروز را پشت سر می‌گذارند. آنچه بیش از همه او را شگفت‌زده می‌کند، توانایی سیستم‌ها برای یادگیری و بهبود خودشان است؛ پدیدهای که سرعت پیشرفت را از هر نمودار خطی فراتر برده است. آیندهای که پیشتر با سال‌ها فاصله قابل پیشبینی بود، امروز در عرض چند ماه دگرگون می‌شود. او این عدم قطعیت را نه تهدید، بلکه فرصتی ناب می‌بیند؛ فرصتی برای خلق ابزارها و ایدههایی که زندگی انسان را به شکلی عمیقتر با علم گره می‌زنند.
علم، محصول تلاش جمعی
میررکنی همواره بر این نکته تأکید دارد که هیچ موفقیتی واقعی نیست مگر آنکه با دیگران به اشتراک گذاشته شود. او معتقد است که دستاوردها نه‌تنها حاصل تلاش فردی، بلکه نتیجه همکاری، اعتماد و همفکری گروه‌های پژوهشی است. این فلسفه در مسیر علمی او نمود یافته و جایزه مصطفی(ص) در سال 2025 به پاس دستاوردش در طرح هشینگ حساس به محل بر اساس توزیع‌های p-پایدار ، نمونه‌ای برجسته از این دیدگاه است. از دیگر جوایز دریافتی او می‌توان به بهترین مقاله کنفرانس ACM در تجارت الکترونیک در سال 2008، بهترین مقاله دانشجویی سمپوزیوم ACM-SIAM در سال 2005 و مدال طلای المپیاد انفورماتیک ایران در سال 1996 اشاره کرد. خانواده، دوستان، همکاران و تیمهای تحقیقاتی همگی نقش بسزایی در هر موفقیت این پژوهشگر داشته‌اند و این دستاوردها نتیجه اعتماد و همکاری جمعی است. به همین دلیل او نیز بسیاری از الگوریتم‌ها و کتابخانه‌های مرتبط با شبکه‌های عصبی گراف و داده‌کاوی را به‌صورت متن باز  منتشر کرده است تا دیگران نیز بتوانند از آن استفاده کنند و مسیر پیشرفت علمی ادامه یابد. برای او، علم همیشه محصول تلاش جمعی است و هیچ دستاوردی بدون همراهی دیگران کامل نمی‌شود.
زندگی ورای الگوریتم‌ها
زندگی میررکنی تنها در معادلات و الگوریتم‌ها خلاصه نمی‌شود. از دوران نوجوانی که فوتبال و پینگ‌پنگ بازی می‌کرد و لذت همکاری و رقابت دوستانه را می‌آموخت، تا امروز که شادی‌های کوچک بازی با فرزندانش را قدر می‌داند، همواره تعادل میان علم، خانواده و جامعه را کلید رشد واقعی می‌داند. تجربه گذراندن وقت با بچه‌ها و یادگیری متقابل با آن‌ها، یکی از ارزشمندترین لحظات زندگی‌اش است و حسی از رضایت و شادی به او می‌دهد که هیچ موفقیت علمی نمی‌تواند جای آن را بگیرد.
در کنار فعالیت‌هایش در گوگل ریسرچ، میررکنی به‌عنوان استاد مدعو در دانشگاه نیویورک در مؤسسه کورانت، الگوریتم‌ها و اقتصاد اینترنت را تدریس می‌کند و به نسل جوان گوشزد می‌کند: «اکنون بهترین زمان برای ورود به عرصه تحقیق است. سرعت پیشرفت‌ها در هوش مصنوعی فرصتی منحصربه‌فرد ایجاد کرده تا رویاهایتان سریع‌تر از همیشه به واقعیت تبدیل شوند؛ اما فراموش نکنید، اگر همه کارها را به هوش مصنوعی بسپارید، مغزتان فرصت رشد و تکامل را از دست خواهد داد.» او آینده‌ای را می‌بیند که در آن انسان و هوش مصنوعی در کنار هم مسائل پیچیده ریاضی را حل می‌کنند و الگوریتم‌ها زندگی روزمره را در حوزه‌هایی مانند پزشکی، علوم اجتماعی و فراتر از آن بهبود می‌بخشند.
داستان میررکنی نشان می‌دهد که کنجکاوی و تلاش فردی وقتی با همکاری و نوآوری پیوند می‌خورد، می‌تواند جهان را به حرکت درآورد. تلاش‌های او در توسعه الگوریتم‌ها و روش‌های علمی، علاوه بر تأثیر در پیشرفت دانش، امکان استفاده کاربردی در پروژه‌ها و پژوهش‌های آینده را فراهم می‌کند و مسیر توسعه علمی را برای نسل‌های بعدی هموار می‌سازد.
 

معرفی اثر‌

در جست‌وجو شباهت
تا به حال کتابی خوانده‌ای که تمام شدنش حس پایان یک دوستی را داشته باشد؟ کتابی که نه فقط محتوایش، بلکه حال‌وهوایش، نثرش و چیزی ناپیدا در میان سطرهایش با تو حرف زده باشد. حالا تصور کن در جست‌وجو کتاب دیگری باشی که همان احساس را زنده کند. پا به کتابخانه‌ای بزرگ با قفسه¬هایی نامنظم می‌گذاری. رمان، فلسفه، علم، تاریخ، همه و همه بدون دسته‌بندی مشخص در قفسه‌ها قرار دارند. شروع به ورق زدن کتاب‌ها می‌کنی تا شاید حسی آشنا پیدا شود. با گذر زمان، خستگی توانت را می‌گیرد. کتاب‌ها زیادند و آنچه دنبالش هستی، به‌راحتی با چشم و دست پیدا نمی‌شود. در نهایت، پشت یکی از رایانه‌های کتابخانه می‌نشینی. توضیحی از آن کتاب محبوب را می‌نویسی و حالا این خواسته انسانی، به مسئله‌ای ماشینی تبدیل می‌شود. در جهان کامپیوترها، چالش کمی پیچیده‌تر می‌شود. این موتور جستجو، باید بین میلیاردها کتاب، دنبال کتابی مشابه خواسته‌ات بگردد. چطور یک رایانه از میان این دریای داده، چیزهایی را پیدا می‌کند که از نظر معنا یا ساختار، به هم نزدیک‌اند؟ مهم‌تر از آن، چگونه می‌تواند این کار را سریع و دقیق انجام دهد، بی‌آن‌که نیاز باشد همه داده‌ها را یکی‌یکی بررسی کند؟ جواب این سوال در راهی است که به جای احساسات، از زبان اعداد و فرمول‌ها برای فهمیدن شباهت‌ها استفاده می‌کند؛ الگوریتمی مبتنی بر توزیع‌های p-پایدار، که توسط پژوهشگرانی مانند وهاب میررکنی طراحی شده است تا رایانه‌ها بتوانند بدون زیرورو کردن کل فضا دیجیتال، داده‌هایی مشابه را هوشمندانه و با سرعتی بالا شناسایی کنند.
شباهت به سبک عددها
شاید در نگاه اول، شباهت مفهومی ساده به‌نظر برسد؛ اما زمانی که وارد دنیای داده‌ها می‌شویم، همین مفهوم ساده، شکلی دقیقتر و متفاوت‌تر به خود می‌گیرد. برای کامپیوترها، همه چیز صرفاً دنباله‌ای از عددهاست. یک عکس به شکل لیستی از عددهایی است که پیکسل‌ها را نشان می‌دهند یا حتی یک صدای ضبط‌ ‌شده، نوسانات فرکانس در قالب ارقامی پشت هم هستند. وقتی پا در جهانی می‌گذاریم که همه‌چیز عدد است، شباهت هم باید بر مبنای این عددها تعریف شود. در چنین فضایی، اگر بخواهیم بدانیم دو چیز چقدر به هم شبیه‌اند، باید بفهمیم که چقدر از هم فاصله دارند. چون در منطق ماشین، هرچه فاصله بین دو مجموعه کم‌تر باشد، تفاوت آن‌ها نیز کم‌تر می‌شود. به¬همین دلیل است که مفهوم فاصله به ابزار اصلی ما برای سنجش شباهت تبدیل می‌شود. البته اندازه‌گیری این فاصله، خود مسئله‌ای مهم است، زیرا راه‌های مختلفی برای محاسبه آن وجود دارد. برای اندازه‌گیری این نزدیکی از روشی موسوم به LPnorm استفاده می‌شود. این روش یک فرمول کلی دارد که با تغییر عددی به نام P، زاویه دید ما به مفهوم فاصله تغییر می¬کند. مثلا فرض کنید روی کاغذ دو نقطه رسم کرده‌اید و می‌خواهید فاصله‌شان را اندازه بگیرید. اگر خط‌کش را طوری بگذارید که خطی صاف و مستقیم میان آن‌ها رسم شود، درواقع کوتاه‌ترین مسیر ممکن را اندازه گرفته‌اید. این همان حالتی است که p برابر 2 درنظر گرفته می‌شود و در ریاضیات به آن فاصله اقلیدسی می‌گویند. حالا تصور کنید که برای رسیدن از یک نقطه به نقطه دیگر، فقط اجازه داشته باشید حرکت‌های عمودی و افقی انجام دهید. در این حالت فاصله بین دو نقطه، با جمع کردن مقدار حرکت در هر مسیر افقی و عمودی به‌دست می‌آید. این نوع محاسبه برای زمانی است که p برابر با 1 است و به آن فاصله منهتنی گفته می‌شود. در اصل عدد p مشخص می‌کند که سیستم به چه نوع تفاوتی بین داده‌ها بیشتر توجه کند.
خط‌کش کامپیوتری
حالا این مفهوم فاصله را به جهان دیجیتال وارد می‌کنیم، جایی که داده‌ها دیگر تصویر و صدا و جمله نیستند، بلکه بردارهایی از اعداد شده‌اند. همان¬طور که پیش‌تر ذکر شد، در کامپیوتر نیز برای سنجش شباهت بین دو تصویر یا متن، فاصله میان بردارها اندازه‌گیری می‌شود. مثلاً وقتی یک موتور جست‌وجو باید تشخیص دهد که دو عبارت به یک موضوع اشاره دارند، یا وقتی برنامه‌ای موسیقی‌محور، آهنگ‌های مشابه را پیشنهاد می‌دهد، آنچه پشت صحنه اتفاق می‌افتد همین مقایسه بردارهاست. در این مسیر، بسته به اینکه هدف الگوریتم دقت بالا باشد یا سرعت بیشتر، می‌توان از مقادیر مختلف p استفاده کرد. درصورتی که بخواهیم به تفاوت‌های جزئی و دقیق توجه کنیم، مقدار 1p= انتخاب خوبی است، چون همه‌ی اختلاف‌ها با وزن مساوی وارد محاسبه می‌شوند؛ اما اگر بخواهیم یک دید کلی‌تر داشته باشیم، مقدار 2p= مناسب‌تر است. این مقدار به رایانه اجازه می‌دهد تا با ‌سرعت بیشتری، فاصله میان بردارها را تخمین بزند. نکته مهم این است که برای تمام مقادیر p≥1، فاصله LP یک متریک معتبر است و ویژگی‌های ریاضیاتی مانند قانون مثلث  را حفظ می‌کند اما اگر p<1 در نظر گرفته شود، هرچند می‌توان همان فرمول را نوشت، نتیجه دیگر یک متریک واقعی نیست و قانون مثلث برقرار نمی‌ماند؛ به همین دلیل چنین حالتی بیشتر در مباحث نظری یا کاربردهای خاص استفاده می‌شود. در علوم داده و یادگیری ماشین، به طور معمول با p≥1 کار می‌شود چون هم شهود آن ساده‌تر است و هم از نظر ریاضی خواص خوبی مانند قانون مثلث را دارد. با این حال پژوهش‌های نوآورانه‌ای مانند پژوهش‌های وهاب میررکنی، امکان بهره‌برداری مؤثری از p<1 را فراهم کرده‌اند و حالا رایانه‌ها، بهتر و سریع‌تر از همیشه می‌توانند تفاوت‌ها را ببینند.
میان‌بُر در شهر داده‌ها
هرچقدر هم روش خوبی برای سنجش شباهت بین داده‌ها داشته باشیم، باز هم با یک چالش بزرگ روبه‌رو هستیم. سرزمین داده‌ها بی‌انتهاست. میلیون‌ها تصویر، متن، صدا و ویدیو در رایانه ذخیره شده‌اند و اگر بخواهیم برای پیداکردن یک فایل خاص، همه این موارد را تک‌تک با هم مقایسه کنیم، زمان بسیار زیادی لازم خواهد بود. اینجاست که الگوریتمی هوشمندانه، حاصل تلاش‌های افرادی از جمله میررکنی وارد ماجرا می‌شود. Locality-Sensitive Hashing یا به‌اختصار LSH، روشی برای دسته‌بندی سریع داده‌ها است. در این الگوریتم، داده‌هایی که به هم شبیه‌اند، به راحتی در یک گروه قرار می‌گیرند؛ اما باوجود حجم بالای اطلاعات چطور چنین چیزی ممکن است؟ LSH از ترفند جالبی استفاده می¬کند. این روش به‌جای مقایسه مستقیم بردارهای طولانی، آن‌ها را با کمک الگوریتم‌های ریاضی خاصی به نام توابع هش مخصوص، به بردارهایی کوتاه و خلاصه‌شده‌ای تبدیل می‌کند که هنوز اطلاعات مهم را حفظ می‌کنند. این مانند زمانی است که به‌جای خواندن تمام یک کتاب، چکیده‌ای هوشمند از آن را دراختیار داشته باشیم که هنوز هم حال‌وهوای متن اصلی را منتقل می‌کند. LSH برای حفظ فاصله تقریبی بردارهای خلاصه‌شده، از ابزاری به نام توزیع Pپایدار استفاده می¬کند. این نوع توزیع، برداری تصادفی از عددها دراختیار ما قرار می‌دهد که با اعمال یک‌سری عملیات جبری با بردار اصلی، برداری خلاصه شده از داده ما حاصل شود. خاصیت جادویی این توزیع در این است که فاصله بین خروجی‌ها، تقریب خوبی از فاصله میان داده‌های اصلی می‌شود. یعنی ما می‌توانیم بدون دست زدن به کل اطلاعات، با برداری کوتاه از هر داده، بفهمیم کدام‌یک به هم نزدیک‌ترند. نکته دیگر در این است که بسته به اینکه چه نوع فاصله‌ای اندازه‌گیری خواهد شد، از توزیع Pپایدار خاصی استفاده می‌شود. برای مثال اگر فاصله اقلیدسی مدنظر باشد، باید بردارهای تصادفی‌مان را از توزیع Pپایداری به نام گاوسی  انتخاب کنیم؛ چون این توزیع، برای محاسبه در زمان p=2 است. برای مقادیر دیگر p، توزیع‌های مخصوص خودشان وجود دارند. به این ترتیب، می‌توان با سرعت بالا داده‌های شبیه را بدون نیاز به جست‌و¬جو طاقت‌فرسا دسته‌بندی کرد.
در این روش نو، دیگر نیازی نیست قالب دادهها را به کلی عوض کنیم یا آنها را در چارچوبهای پیچیده جا بدهیم. همین سادگی عمل است که به سرعتی حیرتانگیز منجر شده است. LSH در برخی آزمایشها تا 40 برابر از روشهای سنتی مثل kd-tree سریعتر عمل کرده و حتی در شرایط دشوارتر، مانند زمانی که p کمتر از 1 است، جستوجو را ممکن کرده است. خلاصه‌سازی هوشمند، این روش را به دستیاری باتجربه در مسیر شناخت تفاوت‌ها تبدیل کرده است. در دنیای عددها و بردارها، شاید احساسی در کار نباشد اما می‌توان شباهت را با سرعتی چندبرابر تشخیص داد.