تولید تصاویر هوش مصنوعی با سرعت نور به واقعیت پیوست
به گزارش صنایع نو، مولدهای هوش مصنوعی میتوانند تصاویر عجیب، غریب یا شگفتانگیز خلق کنند – و در عین حال مقادیر قابل توجهی کربن منتشر نمایند. محاسبات الکترونیکی پرمصرف، فرآیند هوش مصنوعی مولد را پیش میبرند و مدلهای انتشار (Diffusion) زیربنایی، برای تولید تصاویر نو از دل نویز تصادفی آموزش دیدهاند.
پژوهشگران دانشگاه کالیفرنیا، لسآنجلس (UCLA) قصد دارند با استفاده از فوتونها به جای الکترونها برای تأمین انرژی تولید تصویر هوش مصنوعی، این ردپای کربنی را کاهش دهند. مدلهای مولد نوری آنها، پردازندههای دیجیتال را با پردازندههای آنالوگ پراشی که با فوتونها محاسبه میکنند، جفت میکنند. این گروه فناوری خود را در ۲۷ اوت در مجله Nature توصیف کردند.
توضیح مدلهای مولد نوری
فرآیند کار به این شرح است:
گام اول: «تقطیر دانش» نام دارد. در این مرحله، یک مدل انتشار «معلم»، یک مدل مولد نوری «شاگرد» را آموزش میدهد تا نویز تصادفی را به صورت دیجیتال پردازش کند.
گام بعد: مدل شاگرد، ورودیهای نویز تصادفی را به «بذرهای مولد نوری» کدگذاری میکند. این بذرها، الگوهای فاز هستند که اطلاعات فاز نور را نمایندگی میکنند – میتوان هر بذر را چیزی شبیه یک اسلاید برای پروژکتور اورهد در نظر گرفت.
مرحله بعد: این بذرها روی یک «مدولاتور نوری فضایی» (SLM) نمایش داده میشوند که میتواند فاز نور عبوری از خود را کنترل کند. (مدولاتورهای خاص مورد استفاده پژوهشگران، دستگاههای کریستال مایع هستند).
سپس: هنگامی که نور لیزر از بذر میتابد، الگوی فاز آن از طریق یک مدولاتور نوری فضایی دوم منتشر میشود. این مدولاتور دوم – که پردازنده پراشی است – الگوی فاز را رمزگشایی میکند تا یک تصویر جدید ایجاد کند که توسط یک حسگر تصویر ضبط میشود.
«آیدوغان اوزجان»، استاد مهندسی برق و کامپیوتر دانشگاه یوسیالای میگوید: «یک رمزگذار دیجیتال وجود دارد که به سرعت بذر را در اختیار شما قرار میدهد، و سپس پردازنده آنالوگ، کلیدی است که آن بازنمایی را برای تجسم توسط چشم انسان رمزگشایی میکند. تولید در قلمرو آنالوگ نوری اتفاق میافتد، در حالی که بذر از یک شبکه دیجیتال میآید. در کل، این سیستم در حال تکثیر یا تقطیر قابلیتهای تولید اطلاعات یک مدل انتشار است.»
تولید با سرعت نور اتفاق میافتد: اوزجان میگوید: «سیستم به صورت سرتاسری و در یک لحظه واحد اجرا میشود.» با بهرهگیری از فیزیک نور، این سیستمها میتوانند سریعتر از مدلهای انتشار که هزاران مرحله را تکرار میکنند، اجرا شده و به طور بالقوه انرژی کمتری مصرف کنند.
این تیم دو نسخه از مدل خود را طراحی کردند:
1. مدل «عکس فوری» (Snapshot)** که در یک عبور نوری، تصویر تولید میکند.
2. مدل تکراری (Iterative)** که خروجیهای خود را به طور متوالی بهبود میبخشد.
مدل تکراری، تصاویری با کیفیت بالاتر و پسزمینههای واضحتر نسبت به مدل عکس فوری تولید کرد. هر دو مدل توانستند تصاویر تکرنگ و چندرنگ – از جمله بازنماییهایی از پروانهها، محصولات مد، ارقام دستنویس و حتی آثار هنری به سبک ون گوگ – تولید کنند که به نظر پژوهشگران، از نظر کیفیت تصویر خروجی، بسیار شبیه به مدلهای انتشار بودند.
مزایای حریم خصوصی مدلهای نوری
مدلهای مولد نوری یک مزیت اضافه برای حریم خصوصی ارائه میدهند و قابلیتهای رمزنگاری را تقلید میکنند. اوزجان میگوید: «اگر به اطلاعات فاز رمزگذار دیجیتال نگاه کنید، چیز زیادی از آن متوجه نخواهید شد. این اطلاعات برای تجسم مستقیم توسط چشم انسان طراحی نشده است. این بدان معناست که اگر کسی تصویر رمزگذار دیجیتال را رهگیری کند و به آن نگاه کند یا سعی کند بدون رمزگشا، آن را رمزگشایی کند، نخواهد توانست این کار را انجام دهد. من سپس میتوانم اطلاعات تولید شده را رمزگذاری کنم به طوری که فقط شما بتوانید آن را رمزگشایی کنید و هیچ کس دیگر نتواند بداند که چه چیزی را نمایندگی میکند.»
یک مدل مولد نوری عکس فوری آزمایشی، متشکل از یک کولیماتور، پولاریزر، سنسور، تقسیمکننده پرتو، مدولاتور نوری فضایی و لایه رمزگشایی.
یک setup آزمایشی برای یک مدل مولد نوری «عکس فوری»، تصاویر تکرنگ از ارقام دستنویس و اقلام مد ایجاد میکند. منبع: شیچی چن، یوهانگ لی و همکاران.
اوزجان سریعاً اشاره میکند که معماری توسعهیافته توسط تیم آنها ممکن است برای تولید محتوای استفاده دیجیتال مناسب نباشد. او میگوید: «اگر میخواهید در دنیای دیجیتال و به عنوان بخشی از اکوسیستم رایانهای دیجیتال محاسبه کنید، شاید رفتن از دیجیتال به آنالوگ و سپس بازگشت به دیجیتال چندان ایدهآل نباشد. به همین دلیل است که ما به آنها به عنوان رایانههای بصری فکر میکنیم. آنها در دنیای آنالوگ برای چشم انسان محاسبه میکنند. و این جایی است که این فناوری بهتر جای میگیرد، به جای اینکه آن را جایگزینی برای یک مدل مولد دیجیتال بنامیم – اینطور نیست.»
این ویژگی، مدلهای مولد نوری را برای کاربردهای هنری، سرگرمی و رسانهای – به ویژه واقعیت افزوده و واقعیت مجازی – مناسب میسازد.
اوزجان میگوید: «ما میتوانیم این سیستم را به عنوان بخشی از سیستمهای متغیر واقعیت افزوده و واقعیت مجازی به کار بگیریم، جایی که دستگاه باید با چشم انسان ارتباط برقرار کرده و بر روی آن تصویر کند. در طول این تابش، ما میتوانیم از رمزگشا نه تنها به عنوان یک سیستم تابش، بلکه به عنوان یک سیستم پردازشی نیز استفاده کنیم، به طوری که شما بتوانید از ابر با بذرهای مولد نوری ارتباط برقرار کنید و قسمت آخر محاسبات را تنها با تعاملات نور و ماده در حین ارتباط با چشم انسان انجام دهید.»
به عنوان بخشی از مرحله بعدی، پژوهشگران در حال کاوش راههای بالقوه تجاریسازی و همچنین تبدیل نمونه اولیه خود به شکلی کوچکتر هستند. اوزجان میگوید: «به این ترتیب، سیستم میتواند به طور قابل توجهی فشردهتر شود و حتی میتواند مصرف برق را بیشتر کاهش دهد.» در حال حاضر، این تیم با کمک نور، آیندهای روشنتر و پایدارتر برای هوش مصنوعی مولد متصور شده است.
نظرات کاربران
هنوز نظری ثبت نشده است.