AI може да пресъздаде това, което виждаме…
AI за генериране на изображения става все по-добър в пресъздаването на това, което хората виждат от fMRI данни. Но, това все още не е точно четене на мисли… Все още…
Функционалното магнитно резонансно изображение или fMRI е един от най-модерните инструменти за разбиране на това как мислим. Докато човек във fMRI скенер изпълнява различни умствени задачи, машината произвежда хипнотизиращи и цветни изображения на неговия мозък в действие.
Разглеждането на нечия мозъчна дейност по този начин може да каже на невролозите кои мозъчни области използва даден човек. Но, не и какво мисли, вижда или чувства този индивид. Изследователите се опитват да разбият този код от десетилетия. Сега, използвайки изкуствен интелект, за да разбият числата, те постигат сериозен напредък.
fMRI с усъвършенстван AI
Двама учени от Япония наскоро комбинираха данни от fMRI с усъвършенстван AI за генериране на изображения. Те превеждат мозъчната активност на участниците в проучването обратно в картини, които невероятно приличат на тези, които са гледали по време на сканирането. Оригиналните и пресъздадените изображения може да видите на уебсайта на изследователите.
„Можем да използваме тези видове техники, за да изградим потенциални интерфейси мозък-машина“, казва Ю Такаги. Той е невролог от университета в Осака в Япония и е един от авторите на изследването. “Такива бъдещи интерфейси биха могли един ден да помогнат на хора, които в момента не могат да комуникират. Като хора, които външно изглеждат неотзивчиви, но все още може да са в съзнание. Проучването наскоро бе прието да бъде представено на Конференцията за компютърно зрение и разпознаване на образи през 2023 г.
“Четене на мисли”?!
Проучването нашумя онлайн, откакто бе публикувано като предпечат (което означава, че все още не е рецензирано или публикувано) през декември 2022 г. Онлайн коментатори дори сравниха технологията с „четене на мисли“. Но, това описание надценява това, на което е способна тази технология, казват експерти.
„Не мисля, че четем мисли!“, казва Шайли Джайн. Тя е изчислителен невролог от Тексаския университет в Остин и не е участвала в новото проучване. „Но мисля, че технологията е някъде близо до това да бъде наистина полезна за пациентите. А не до това да се използва за лоши неща.”
AI върху мозъчната активност
Новото изследване далеч не е първото, което използва AI върху мозъчната активност, за да реконструира изображения, гледани от хората. В експеримент от 2019 г. изследователи в Киото, Япония, използват вид машинно обучение, наречено дълбока невронна мрежа. С него те реконструират изображения от fMRI сканирания. Резултатите приличат повече на абстрактни картини, отколкото на снимки, но човешките съдии все пак могат точно да съпоставят създадените от AI изображения с оригиналните снимки.
Оттогава невролозите продължават тази работа с по-нови и по-добри AI генератори на изображения. В скорошното проучване изследователите са използвали Stable Diffusion, т.нар. дифузионен модел от базираната в Лондон стартираща компания Stability AI. Дифузионните модели – категория, която включва и генератори на изображения като DALL-E 2 – са „основният герой на експлозията на AI“, казва Такаги. Тези модели се учат чрез добавяне на шум към изображенията си за обучение. Подобно на статичния шум на телевизора, шумът изкривява изображенията, но по предвидими начини, които моделът започва да учи. В крайна сметка моделът може да изгради изображения само от „статичното“.
Обучение на Stable Diffusion
Пуснат сред обществеността през август 2022 г., Stable Diffusion е обучен върху милиарди снимки и надписи към тях. Той се е научил да разпознава модели в картини, така че може да смесва и съчетава визуални характеристики по команда, за да генерира изцяло нови изображения. „Просто му кажете „Куче на скейтборд“ и след това то ще генерира куче на скейтборд“, казва Айрис Гроен, невролог от университета в Амстердам, която не е участвала в новото проучване. Изследователите „просто взеха този модел и след това казаха: „Добре, можем ли сега да го свържем по интелигентен начин със сканирането на мозъка?““
Мозъчните сканирания
Мозъчните сканирания, използвани в новото проучване, идват от изследователска база данни, съдържаща резултатите от по-ранно проучване. В изследването осем участници се съгласяват редовно да лежат в fMRI скенер и да преглеждат 10 000 изображения в течение на една година. Резултатът е огромно хранилище от данни за fMRI, което показва как зрителните центрове на човешкия мозък (или поне мозъците на тези осем човека) реагират на всяко от изображенията. В скорошното проучване изследователите са използвали данни от четирима от първоначалните участници.
За да генерира реконструираните изображения, AI моделът трябва да работи с два различни типа информация: визуалните свойства на изображението от по-ниско ниво и значението му от по-високо ниво. Например, това не е просто ъглов, продълговат обект на син фон – това е самолет в небето. Мозъкът също работи с тези два вида информация и ги обработва в различни региони. За да свържат мозъчните сканирания и AI заедно, изследователите са използвали линейни модели, за да сдвоят частите от всички, които се занимават с визуална информация от по-ниско ниво. Те правят същото и с частите, които обработват концептуална информация от високо ниво.
„Чрез основно картографиране на тези изображения един към друг, те успяха да генерират тези изображения.“, казва Гроен. След това AI моделът може да научи кои фини модели в мозъчната активация на човек отговарят на кои характеристики на изображенията. След като моделът успява да разпознае тези модели, изследователите му предоставят данни от fMRI, които той никога не е виждал преди, и му възлагат задачата да генерира изображението, което да върви заедно с него. И накрая, изследователите сравняват генерираното изображение с оригинала, за да видят колко добре се представя моделът.
Поразително сходни изображения
Много от двойките изображения, които авторите показват в изследването, изглеждат поразително сходни. „Това, което намирам за вълнуващо в него, е, че работи“, казва Амбудж Сингх, компютърен учен от Калифорнийския университет в Санта Барбара, който не е участвал в проучването. “Все пак това не означава, че учените са разбрали как точно мозъкът обработва визуалния свят.”, допълва Сингх. Моделът Stable Diffusion не обработва непременно изображения по същия начин, по който го прави мозъкът, дори ако е в състояние да генерира подобни резултати. Авторите се надяват, че сравняването на тези модели и мозъка може да хвърли светлина върху вътрешната работа на двете сложни системи.
Колкото и фантастично да звучи тази технология, тя има много ограничения. Всеки модел трябва да бъде обучен и да използва данните само на един човек. „Мозъкът на всеки е наистина различен“, казва Лин Ле. Той е изчислителен невролог в университета Radboud в Холандия, който не е участвал в изследването. “Ако искате AI да реконструира изображения от мозъчните ви сканирания, ще трябва да обучите персонализиран модел – и за това учените ще се нуждаят от множество висококачествени fMRI данни от вашия мозък. Освен ако не се съгласите да лежите напълно неподвижно и да се концентрирате върху хиляди изображения в дрънкаща, клаустрофобична MRI тръба, нито един съществуващ AI модел няма да има достатъчно данни, за да започне да декодира мозъчната ви активност.”, допълва Лин Ле.
АI добри само в предварително обучени задачи
Дори и с тези данни, AI моделите са добри само в задачи, за които са изрично обучени, обяснява Джейн. Модел, обучен за това как възприемате изображенията, няма да работи, за да се опитвате да декодирате какви концепции мислите, въпреки че някои изследователски екипи, включително този на Jain, изграждат други модели за това.
Все още не е ясно дали тази технология ще работи за реконструиране на изображения, които участниците само са си представяли, а не са гледали с очите си. Тази способност би била необходима за много приложения на технологията, като например използването на интерфейси мозък-компютър, за да помогне на тези, които не могат да говорят или жестове, да комуникират със света.
„Може да се спечели много, невронаучно, от изграждането на технология за декодиране“, казва Джейн. Но, потенциалните ползи идват с потенциални етични затруднения. Справянето с тях ще стане още по-важно с подобряването на тези техники. Настоящите ограничения на технологията „не са достатъчно добро извинение да се отнасяме леко към потенциалните вреди от декодирането“, казва тя. „Мисля, че е време да помислим за неприкосновеността на личния живот и отрицателните употреби на тази технология, въпреки че може да не сме на етапа, в който това може да се случи.“