A A+ A++

Osoby niedowidzące oraz niewidome mają dość utrudnione życie w dzisiejszym świecie. Oczywiście do tej pory mogli liczyć na pewne ułatwienia, jednak aktualna technologia daje im dużo większe możliwości. Na systemie Android pojawiła się właśnie nowa aplikacja od Microsoftu, która nazywa się Seeing AI. Pozwala ona na identyfikowanie obiektów, scen i ludzi, którzy znajdują się przed kamerą smartfona, a następnie głosowe opisanie wybranych elementów przez asystenta AI.

Seeing AI jest dowodem na to, że obecną technologię związaną ze “sztuczną inteligencją” można wykorzystać w praktyczny i przydatny sposób. Aplikację docenią przede wszystkim osoby, które mają problemy ze wzrokiem, ponieważ umożliwi im ona „ujrzenie” wszystkiego, co ich otacza.

Seeing AI - aplikacja dla niewidomych od Microsoftu trafia na Androida. Sztuczna inteligencja pozwoli im zobaczyć świat [1]

ChatGPT Plus – OpenAI wzbogaca multimodalny model. Nowa aktualizacja pozwala chatbotowi na pracę z plikami

Aplikacja Seeing AI znana jest użytkownikom smartfonów od Apple już od pewnego czasu, natomiast dopiero teraz zawitała na urządzenia z Androidem. Do działania wykorzystuje ona platformę Azure AI. Aktualnie multimodalne duże modele językowe (MLLM) radzą sobie bardzo dobrze nie tylko z tekstem, ale także z obrazami, muzyką, czy też materiałami wideo. Technologia ta pozwoliła na to, żeby omawiana aplikacja przedstawiała świat osobom niewidomym lub z wadami wzroku. Wystarczy, że skierujemy kamerę w smartfonie na konkretny obiekt, scenę lub dokument i za chwilę usłyszymy głosowy opis. W praktyce rozwiązanie wypada naprawdę zaskakująco dobrze.

Seeing AI - aplikacja dla niewidomych od Microsoftu trafia na Androida. Sztuczna inteligencja pozwoli im zobaczyć świat [2]

Kosmos-1 – multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3

Seeing AI jest dostępna za darmo, więc wystarczy udać się do Sklepu Google Play lub App Store i pobrać oprogramowanie. Interfejs jest bardzo prosty i pozwala na wygodne przełączanie się pomiędzy trybami. W czasie rzeczywistym możemy odsłuchać tekst, który znajduje się przed nami, posłuchamy treści całych dokumentów, czy też zeskanujemy kody kreskowe danych produktów, a następnie usłyszymy, z jaką rzeczą mamy do czynienia. Funkcje pozwalają także na określenie wartości pieniędzy (nie ma jeszcze polskiej waluty), zidentyfikowanie liczby osób, całej sceny, czy też kolorów obiektów. Zaimplementowano nawet opcję, która dźwiękowo przedstawi, jak jasno jest w danym pomieszczeniu. Przetestowałem aplikację osobiście i mogę przyznać, że wszystko działa naprawdę błyskawicznie. Wystarczy, że przed kamerą ukaże się jakiś tekst i od razu usłyszymy jego treść. Obiekty i sceny są identyfikowane z dużą dokładnością, choć zdarzają się małe nieścisłości. Warto samemu się przekonać, co oferuje dzisiejsza technologia.

Źródło: Microsoft

Oryginalne źródło: ZOBACZ
0
Udostępnij na fb
Udostępnij na twitter
Udostępnij na WhatsApp

Oryginalne źródło ZOBACZ

Subskrybuj
Powiadom o

Dodaj kanał RSS

Musisz być zalogowanym aby zaproponować nowy kanal RSS

Dodaj kanał RSS
0 komentarzy
Informacje zwrotne w treści
Wyświetl wszystkie komentarze
Poprzedni artykułPierwsza lista leków refundowanych po nowemu – zobacz szczegóły
Następny artykułJeszcze tym roku ma powstać centrum robotyki