Виждайки приложението AI на Microsoft за незрящи вече и на немски - DER SPIEGEL

Разработчик на Microsoft Saqib Shaikh

виждайки

Снимка: Илейн Томпсън/AP

Смартфонът чете рецепти, пише снимки за почивка и разпознава приятели по партита: преди две години Microsoft пусна приложението за iPhone „Seeing AI“, дигитален спътник за хора със зрителни увреждания. От вторник приложението се предлага на френски, испански, холандски, японски и немски в допълнение към английската версия.

В интервю за SPIEGEL, Saqib Shaikh, главен разработчик на приложението в Microsoft, обяснява кои нови функции на приложението са станали възможни чрез изкуствения интелект (AI). Той говори за визията си за дигитални спътници за хора със зрителни и слепи хора, но също така и за проблемите, пред които са изправени разработчиците, и защо трябва да бъдете търпеливи за технологията.

Saqib Shaikh Като главен разработчик в Microsoft, той отговаря за приложението „Seeing AI“. Шейх загубил зрението си на седем години. В Microsoft той помогна за разработването на търсачката Bing и гласовия асистент Cortana. Сега Шейх се занимава предимно с това как изкуственият интелект може да улесни живота на хората със зрителни увреждания.

ОГЛЕДАЛО: Г-н Шейх, преди 15 години за първи път ви хрумна идеята да развиете дигитален спътник за хора със зрително увреждане. Изкуственият интелект е технологията, която сте чакали?

Шейх: Постигнахме огромен напредък в изследванията с изкуствен интелект. Но сме много години далеч от компютрите, които се оглеждат и разбират всичко, което виждат. Самият аз съм сляп, затова обичам да се разхождам със съпругата и приятелите си. След това обсъждаме какво виждат по пътя. След това ми казват, когато открият нещо вълнуващо, или аз питам дали не мога да идентифицирам звук. Иска ми се един ден ИИ да може да направи точно това. Като личен асистент.

ОГЛЕДАЛО: Колко време трябва да чакаме, докато цифровите помощници заменят човешките спътници?

Шейх: Много е трудно да се види в бъдещето. Мога само да спекулирам диво. Не знам дали ще минат още две, три, четири или пет години. Толкова много се случва на полето. От една страна има толкова голям напредък всяка година, но от друга страна се сблъскваме и с изключително големи предизвикателства. Например, все още е много трудно за ИИ да разпознае какво точно правят хората в определена ситуация.

ОГЛЕДАЛО: В какво наистина е добър ИИ?

Шейх: През последните няколко години компютрите се научиха невероятно бързо да поемат ясно определени задачи от хората. Преди всичко те разпознават образите и езика все по-добре. Изкуственият интелект е най-напредналият в тези области. Благодарение на тази технология например „Виждане на AI“ може да се използва за докосване на снимки. За целта потребителят докосва дисплея на своя смартфон, за да разбере дали под пръста му може да се види текст, лице или друг обект.

ОГЛЕДАЛО: Виждането на текст за разпознаване на AI работи доста добре. Но разпознаването на сцената все още е изключително недостатъчно. Приложението обърква детските пързалки с хидранти, кръглите прозорци се интерпретират като знаци за спиране и каменни пейки се превръщат в надгробни камъни. Какво толкова трудно има при разпознаването на обекти?

Шейх: За изкуствения интелект може да се мисли като за тригодишно дете. Показвате му много снимки и му казвате: "Това е кола. Това е дърво. Това е куче." В началото детето разпознава само неща, които вече е видяло. След това започва да описва тези неща в изречения. Подобно на детето, изкуственият интелект се подобрява с времето. Учените също работят, за да гарантират, че методите за обучение продължават да се подобряват.

ОГЛЕДАЛО: Доста отговорност е да насочвате незрящите и хората с увредено зрение през света с приложение.

Шейх: Да. Но това е изследователски проект. Много функции все още са много експериментални. Въпреки това искаме да дадем на потребителите възможността да участват в новоразработените технологии на Microsoft възможно най-рано. Печелим от факта, че потребителите ни казват какво мислят за функциите. Разработваме приложението заедно с нашите клиенти.

ОГЛЕДАЛО: Притеснява ли потребителите, че приложението продължава да прави грешки?

Шейх: За някои не е задължително да е перфектно. Например потребител ми каза, че иска да изпрати празнични снимки на семейството си у дома. Дори ако приложението не разпознаваше всичко точно, то поне можеше да различи снимките и да избере правилните изображения. Друг ми каза, че сканира района, за да види дали има снимка за Facebook. Грубо описание на приложението му беше достатъчно. Друг ни каза, че е използвал приложението, за да снима телевизията на футболни мачове, за да разбере резултата. Коментаторът беше споменал междинния резултат твърде рядко. Други сканират кутии за напитки, за да различат колата от диетичната. Всички тези малки неща правят приложението полезен спътник.

ОГЛЕДАЛО: Компании като Google и Facebook вдигат много шум около своите изследвания на AI, печелят дуели срещу go champions и побеждават професионалните покер играчи. Какво прави Microsoft в надпреварата за надмощие на AI?

Шейх: Виждаме много потенциал в AI за подобряване на живота на хората със зрителни увреждания с „Виждане на AI“. Но нашите колеги разработват и инструменти за слабочуващ, например за показване на субтитри в реално време. Има и многобройни други примери като „Eye Gaze“, който може да се използва за управление на компютър с Windows само с едно движение на очите.