18.06.2025

Generatywna sztuczna inteligencja brzegowa umożliwia sterowanie robotami za pomocą głosu

Rewolucja generatywnej sztucznej inteligencji, która wprowadza chatboty do obsługi klienta i umożliwia działanie urządzeń takich jak inteligentne głośniki, to dopiero początek. Ta sama technologia, która rozumie ludzką mowę konwersacyjną, wkracza obecnie do robotyki, pomagając w opracowywaniu algorytmów, które lepiej kontrolują ruchy robotów i inicjują zasady wykonywania ważnych zadań.

Tria

Roboty wkraczają obecnie do obszarów, w których nie tylko współpracują z operatorami, ale także z ogółem społeczeństwa. Generatywna sztuczna inteligencja może mieć ogromny wpływ na ich użyteczność, zapewniając sterowanie głosowe i informacje zwrotne. Mobilny robot-konsjerż w hotelu lub szpitalu może kierować ludzi do miejsc, do których chcą się udać, lub dostarczać posiłki. Wbudowana funkcja speech-to-speech pozwala klientom ustnie zadawać pytania i uzyskiwać dokładne głosowe odpowiedzi. Podobnie w systemach transportu publicznego roboty pomocnicze mogą pomagać osobom niedowidzącym w dotarciu do wybranych miejsc.

W zastosowaniach przemysłowych, takich jak spawanie i mocowanie, robot może wykonywać polecenia głosowe i sygnalizować, że je poprawnie zrozumiał. Polecenia te mogą nakazywać robotowi przesunięcie ciężkiego panelu na miejsce, wykonanie spawu i mocowania, a następnie przesunięcie panelu do następnej pozycji. W sytuacjach medycznych robot może dostarczyć lekarzowi potrzebny instrument bez konieczności naruszania procedur sterylności poprzez dotykanie ekranu lub klawiatury.

Systemy zamiany mowy na mowę (speech-to-speech)

Wiele przeznaczonych dla konsumentów współczesnych systemów zamiany mowy na mowę korzysta z chmury, w celu świadczenia swoich usług. Często aplikacje robotyczne nie tolerują opóźnień, które się z tym wiążą. Ponadto operacje przemysłowe i rolnicze mogą być oddalone od połączeń o dużej przepustowości. Sytuacje te wymagają wdrożenia wysoce wydajnych modeli sztucznej inteligencji, które mogą działać w urządzeniach wbudowanych.

W przeszłości lokalne uruchamianie modeli AI wiązało się z wysokimi kosztami i dużym zużyciem energii. Obecnie już tak nie jest. Korzystając z nowoczesnego procesora aplikacyjnego NXP i.MX95, firma Tria opracowała systemy pokazujące, w jaki sposób generatywna sztuczna inteligencja zamiany mowy na mowę może zostać przeniesiona na platformę sprzętową o niskim poborze mocy, unikając wysokich kosztów energetycznych i finansowych, związanych ze specjalnym procesorem graficznym. Procesor aplikacyjny i.MX95 łączy w sobie zaawansowany wielordzeniowy procesor Arm z wbudowanym procesorem graficznym (GPU) oraz akceleracją AI opartą na NXP eIQ Neutron, zintegrowaną z szeregiem wysokowydajnych sterowników wejścia/wyjścia i pamięci.

Podczas wdrażania sztucznej inteligencji w aplikacji wbudowanej ważne jest, aby wybrać modele, które zapewniają najlepszy kompromis pod względem mocy, użycia pamięci i dokładności. Zasadniczo generatywny model AI mógłby być używany od początku do końca. Jednak w wielu przypadkach nie jest to konieczne. Inżynierowie firmy Tria eksperymentowali z różnymi opcjami dla różnych części potoku przetwarzania mowy.

Potok ten rozpoczyna się od zadania wykrywania poleceń wydawanych przez człowieka. Powinno to być przypisane do algorytmu lub modelu dostrojonego pod kątem niskiego zużycia energii, ponieważ będzie ono musiało być uruchamiane często, aby robot nie przegapił ważnych poleceń. Najprostszym algorytmem do tego celu jest wykrywanie mocy audio. Podejście to polega na porównaniu sygnału z mikrofonu z poziomem hałasu w tle. Chociaż metoda ta charakteryzuje się wyjątkowo niskim obciążeniem, ma niedopuszczalny wskaźnik fałszywych alarmów. Jednak model wykrywania aktywności głosowej Silero, oparty na architekturze konwolucyjnej sieci neuronowej (CNN – Convolutional Neural Network), zapewnia wysoką jakość przy niskim obciążeniu.

Przekształcanie mowy na tekst (speech-to-text)

Podobnie, jeśli chodzi o wyniki, zespół odkrył, że model Piper przekształcania tekstu na mowę również zapewnia doskonałą wydajność w stosunku do swojego rozmiaru, procesora i użycia pamięci. To właśnie między tymi dwoma etapami generatywna sztuczna inteligencja zapewnia największe korzyści. Technologia, która stanowi podstawę wielu powszechnie stosowanych obecnie narzędzi generatywnej sztucznej inteligencji, została opracowana z myślą o obsłudze języka naturalnego. Duży model językowy (LLM) wykorzystuje statystyczny charakter ludzkiej mowy i wzorców pisania. Słowa i frazy są rozkładane na tokeny, które są mapowane do wielowymiarowej przestrzeni wektorowej w taki sposób, że te o podobnym znaczeniu znajdują się blisko siebie. Jest to jeden z powodów, dla których modele te są skuteczne w tłumaczeniu z jednego języka na drugi.

Tria

LLM łączy osadzanie wektorowe z siecią neuronową opartą na strukturach Transformer. Wykorzystuje ono koncepcję uwagi, aby znaleźć widoczne powiązania między tokenami, które pomogą sztucznej inteligencji generować spójne wyniki. Dużą zaletą procesu szkolenia jest to, że faza najbardziej wymagająca pod względem obliczeniowym nie wymaga oznaczania danych. Proces szkolenia pozwala modelowi samodzielnie wypracować widoczne powiązania między słowami. Równie ważna jest druga faza, znana jako fine tuning. Wykorzystuje ona oznaczone dane do optymalizacji wstępnie wyszkolonego modelu pod kątem konkretnego zadania. W przypadku modelu takiego jak Whisper firmy OpenAI zadaniem tym jest dyktowanie z mowy naturalnej do tekstu.

Wyszkolony na ponad pół miliona godzin wielojęzycznej mowy z korpusem reprezentującym wiele różnych typów zadań, model open source Whisper jest odporny na szumy, akcenty i potrafi radzić sobie z wieloma przypadkami języka technicznego. Jego stosunkowo niewielki rozmiar, w połączeniu z dodatkowym dostrojeniem wydajności i pamięci, sprawia, że uruchomienie Whisper w urządzeniach wbudowanych jest wykonalne.

W przypadku aplikacji zamiany mowy na mowę zespół Tria wykorzystał przetwarzanie kwantyzowane, pozwalające zmniejszyć obciążenie modelu związane z przetwarzaniem. Programiści zazwyczaj szkolą i wdrażają modele sztucznej inteligencji w chmurze przy użyciu arytmetyki zmiennoprzecinkowej. Jednak procesory takie jak i.MX95 obsługują równoległe potoki arytmetyczne, które działają na krótkich liczbach całkowitych.

Dzięki konwersji parametrów zmiennoprzecinkowych na liczby całkowite 8-bitowe, możliwe jest osiągnięcie znacznego przyspieszenia i oszczędności w zakresie ogólnego zużycia pamięci i przepustowości, co również pomaga zmniejszyć zużycie energii. Kwantyzacja do int8 umożliwiła skrócenie czasu przetwarzania z 10 sekund do 1,2 sekundy. Aby dostosować się do krótkich poleceń oczekiwanych w aplikacjach robotycznych, zespół skrócił również długość kontekstu audio z 30 sekund do mniej niż 2 sekund.

Określenie znaczenia tekstu generowanego przez Whisper jest bardziej złożonym zadaniem i wymaga większego modelu dostosowanego do aplikacji. Modele LLM, które potrafią zrozumieć tekst na tyle dobrze, aby przekształcić go w polecenia dla robota, mogą wymagać miliarda lub więcej parametrów sieci neuronowej, chociaż możliwe jest zmniejszenie ich rozmiaru poprzez staranne dostrojenie. W ramach tego projektu przetwarzania mowy na mowę firma Tria oceniła modele open source Qwen i Llama3, zaczynając od ich wersji z miliardem parametrów. Kluczowym kompromisem jest liczba tokenów, które taki model może wygenerować na sekundę. Na przykład wersja Qwen z 500 milionami parametrów działa ponad dwa razy szybciej na platformie takiej jak i.MX niż wersja z miliardem parametrów.

Model z 500 milionami parametrów może zapewnić rozsądną funkcjonalność w połączeniu z dobrze ukierunkowanym precyzyjnym dostrojeniem. Proces ten mógłby na przykład zoptymalizować model pod kątem typów par poleceń i odpowiedzi, które ma obsługiwać robot mobilny. Programiści są w stanie używać modelu LLM opartego na serwerze do tworzenia większości oznaczonych danych generowanych syntetycznie. Pozwala to zaoszczędzić dużo czasu w porównaniu z ręcznym generowaniem i oznaczaniem.

Aby ułatwić integrację z celem opartym na Yocto, zespół zdecydował się na architekturę zbudowaną wokół maszyny stanów z brokerem MQTT służącym do przekazywania komunikatów między różnymi modelami i innymi komponentami systemu, takimi jak wejście kamery i awatar 3D zaimplementowany przy pomocy wbudowanego procesora graficznego. Aby zapewnić niezawodne działanie, wątek watchdog działający w procesorze sprawdza, czy dyktowanie zostało zakończone w określonym czasie, a jeśli tak nie jest, generując frazę „czy możesz powtórzyć?”.

Kolejna fala generatywnej sztucznej inteligencji

Generatywna sztuczna inteligencja typu speech-to-speech to dopiero początek. Bardziej zaawansowane, multimodalne modele językowe są obecnie wykorzystywane w projektach badawczych do szkolenia robotów, które są w stanie lepiej poruszać się i manipulować obiektami. Zespoły badawczo-rozwojowe wykorzystują obecnie uczenie się przez wzmocnienie, w połączeniu z modelami multimodalnymi. Ma to na celu przezwyciężenie ograniczenia tradycyjnych algorytmów modelowego sterowania predykcyjnego. Inne modele podstawowe, skupiające się na umiejętnościach rozumowania, pozwolą robotom poruszać się bez konieczności korzystania z map, podejmować autonomiczne decyzje i tworzyć spójne strategie realizacji zadań na podstawie istniejących zasad niższego poziomu. Dalsza optymalizacja tych modeli umożliwi uruchamianie ich na przyszłych platformach o niskim poborze mocy. Tymczasem projektanci robotów mają obecnie dostęp do metod, które pozwalają przekazać robotowi polecenia głosowe i sprawdzić, czy zrozumiał on zadanie.

Ilustracje zostały udostępnione przez firmę Tria