تولید تصاویر هوش مصنوعی با سرعت نور به واقعیت پیوست

پنج شنبه ۱۷ مهر ۱۴۰۴ | بازدید: 0

به گزارش صنایع نو، مولدهای هوش مصنوعی می‌توانند تصاویر عجیب، غریب یا شگفت‌انگیز خلق کنند – و در عین حال مقادیر قابل توجهی کربن منتشر نمایند. محاسبات الکترونیکی پرمصرف، فرآیند هوش مصنوعی مولد را پیش می‌برند و مدل‌های انتشار (Diffusion) زیربنایی، برای تولید تصاویر نو از دل نویز تصادفی آموزش دیده‌اند.

پژوهشگران دانشگاه کالیفرنیا، لس‌آنجلس (UCLA) قصد دارند با استفاده از فوتون‌ها به جای الکترون‌ها برای تأمین انرژی تولید تصویر هوش مصنوعی، این ردپای کربنی را کاهش دهند. مدل‌های مولد نوری آن‌ها، پردازنده‌های دیجیتال را با پردازنده‌های آنالوگ پراش‌ی که با فوتون‌ها محاسبه می‌کنند، جفت می‌کنند. این گروه فناوری خود را در ۲۷ اوت در مجله Nature توصیف کردند.

توضیح مدل‌های مولد نوری

فرآیند کار به این شرح است:

گام اول: «تقطیر دانش» نام دارد. در این مرحله، یک مدل انتشار «معلم»، یک مدل مولد نوری «شاگرد» را آموزش می‌دهد تا نویز تصادفی را به صورت دیجیتال پردازش کند.

گام بعد: مدل شاگرد، ورودی‌های نویز تصادفی را به «بذرهای مولد نوری» کدگذاری می‌کند. این بذرها، الگوهای فاز هستند که اطلاعات فاز نور را نمایندگی می‌کنند – می‌توان هر بذر را چیزی شبیه یک اسلاید برای پروژکتور اورهد در نظر گرفت.

مرحله بعد: این بذرها روی یک «مدولاتور نوری فضایی» (SLM) نمایش داده می‌شوند که می‌تواند فاز نور عبوری از خود را کنترل کند. (مدولاتورهای خاص مورد استفاده پژوهشگران، دستگاه‌های کریستال مایع هستند).

سپس: هنگامی که نور لیزر از بذر می‌تابد، الگوی فاز آن از طریق یک مدولاتور نوری فضایی دوم منتشر می‌شود. این مدولاتور دوم – که پردازنده پراش‌ی است – الگوی فاز را رمزگشایی می‌کند تا یک تصویر جدید ایجاد کند که توسط یک حسگر تصویر ضبط می‌شود.

«آیدوغان اوزجان»، استاد مهندسی برق و کامپیوتر دانشگاه یوسی‌ال‌ای می‌گوید: «یک رمزگذار دیجیتال وجود دارد که به سرعت بذر را در اختیار شما قرار می‌دهد، و سپس پردازنده آنالوگ، کلیدی است که آن بازنمایی را برای تجسم توسط چشم انسان رمزگشایی می‌کند. تولید در قلمرو آنالوگ نوری اتفاق می‌افتد، در حالی که بذر از یک شبکه دیجیتال می‌آید. در کل، این سیستم در حال تکثیر یا تقطیر قابلیت‌های تولید اطلاعات یک مدل انتشار است.»

تولید با سرعت نور اتفاق می‌افتد: اوزجان می‌گوید: «سیستم به صورت سرتاسری و در یک لحظه واحد اجرا می‌شود.» با بهره‌گیری از فیزیک نور، این سیستم‌ها می‌توانند سریع‌تر از مدل‌های انتشار که هزاران مرحله را تکرار می‌کنند، اجرا شده و به طور بالقوه انرژی کمتری مصرف کنند.

این تیم دو نسخه از مدل خود را طراحی کردند:

1. مدل «عکس فوری» (Snapshot)** که در یک عبور نوری، تصویر تولید می‌کند.

2. مدل تکراری (Iterative)** که خروجی‌های خود را به طور متوالی بهبود می‌بخشد.

مدل تکراری، تصاویری با کیفیت بالاتر و پس‌زمینه‌های واضح‌تر نسبت به مدل عکس فوری تولید کرد. هر دو مدل توانستند تصاویر تک‌رنگ و چندرنگ – از جمله بازنمایی‌هایی از پروانه‌ها، محصولات مد، ارقام دست‌نویس و حتی آثار هنری به سبک ون گوگ – تولید کنند که به نظر پژوهشگران، از نظر کیفیت تصویر خروجی، بسیار شبیه به مدل‌های انتشار بودند.

مزایای حریم خصوصی مدل‌های نوری

مدل‌های مولد نوری یک مزیت اضافه برای حریم خصوصی ارائه می‌دهند و قابلیت‌های رمزنگاری را تقلید می‌کنند. اوزجان می‌گوید: «اگر به اطلاعات فاز رمزگذار دیجیتال نگاه کنید، چیز زیادی از آن متوجه نخواهید شد. این اطلاعات برای تجسم مستقیم توسط چشم انسان طراحی نشده است. این بدان معناست که اگر کسی تصویر رمزگذار دیجیتال را رهگیری کند و به آن نگاه کند یا سعی کند بدون رمزگشا، آن را رمزگشایی کند، نخواهد توانست این کار را انجام دهد. من سپس می‌توانم اطلاعات تولید شده را رمزگذاری کنم به طوری که فقط شما بتوانید آن را رمزگشایی کنید و هیچ کس دیگر نتواند بداند که چه چیزی را نمایندگی می‌کند.»

یک مدل مولد نوری عکس فوری آزمایشی، متشکل از یک کولیماتور، پولاریزر، سنسور، تقسیم‌کننده پرتو، مدولاتور نوری فضایی و لایه رمزگشایی.

یک setup آزمایشی برای یک مدل مولد نوری «عکس فوری»، تصاویر تک‌رنگ از ارقام دست‌نویس و اقلام مد ایجاد می‌کند. منبع: شیچی چن، یوهانگ لی و همکاران.

اوزجان سریعاً اشاره می‌کند که معماری توسعه‌یافته توسط تیم آن‌ها ممکن است برای تولید محتوای استفاده دیجیتال مناسب نباشد. او می‌گوید: «اگر می‌خواهید در دنیای دیجیتال و به عنوان بخشی از اکوسیستم رایانه‌ای دیجیتال محاسبه کنید، شاید رفتن از دیجیتال به آنالوگ و سپس بازگشت به دیجیتال چندان ایده‌آل نباشد. به همین دلیل است که ما به آن‌ها به عنوان رایانه‌های بصری فکر می‌کنیم. آن‌ها در دنیای آنالوگ برای چشم انسان محاسبه می‌کنند. و این جایی است که این فناوری بهتر جای می‌گیرد، به جای اینکه آن را جایگزینی برای یک مدل مولد دیجیتال بنامیم – اینطور نیست.»

این ویژگی، مدل‌های مولد نوری را برای کاربردهای هنری، سرگرمی و رسانه‌ای – به ویژه واقعیت افزوده و واقعیت مجازی – مناسب می‌سازد.

اوزجان می‌گوید: «ما می‌توانیم این سیستم را به عنوان بخشی از سیستم‌های متغیر واقعیت افزوده و واقعیت مجازی به کار بگیریم، جایی که دستگاه باید با چشم انسان ارتباط برقرار کرده و بر روی آن تصویر کند. در طول این تابش، ما می‌توانیم از رمزگشا نه تنها به عنوان یک سیستم تابش، بلکه به عنوان یک سیستم پردازشی نیز استفاده کنیم، به طوری که شما بتوانید از ابر با بذرهای مولد نوری ارتباط برقرار کنید و قسمت آخر محاسبات را تنها با تعاملات نور و ماده در حین ارتباط با چشم انسان انجام دهید.»

به عنوان بخشی از مرحله بعدی، پژوهشگران در حال کاوش راه‌های بالقوه تجاری‌سازی و همچنین تبدیل نمونه اولیه خود به شکلی کوچک‌تر هستند. اوزجان می‌گوید: «به این ترتیب، سیستم می‌تواند به طور قابل توجهی فشرده‌تر شود و حتی می‌تواند مصرف برق را بیشتر کاهش دهد.» در حال حاضر، این تیم با کمک نور، آینده‌ای روشن‌تر و پایدارتر برای هوش مصنوعی مولد متصور شده است.

لینک کوتاه:

امتیاز شما:

نظرات کاربران

هنوز نظری ثبت نشده است.

اشتراک‌گذاری در شبکه‌های اجتماعی:

نظرات کاربران