LinkedIn YouTube Facebook
Szukaj

Newsletter

Proszę czekać.

Dziękujemy za zgłoszenie!

Wstecz
Artykuły

Lokalni asystenci głosowi w oparciu o AI bez zależności od chmury: wydajne rozwiązanie na urządzeniu

Firma SYNAPTICS udostępniła na GitHub środowisko programistyczne, które umożliwia lokalne działanie asystentów głosowych bez konieczności połączenia z chmurą. Jest to możliwe dzięki wydajnej architekturze rodziny SYNAPTICS SL, a w szczególności modeli SL1680 i SL1640, które są wyposażone w zintegrowany procesor NPU i korzystają ze środowiska oprogramowania ASTRA SDK oraz zestawu narzędzi SyNAP Tool Kit.

W aplikacjach Smart City i Smart Building sterowanie głosowe bez połączenia z Internetem jest często kluczowym wymaganiem. Dzięki postępom w zakresie dużych modeli językowych (LLM) i ich optymalizacji do modeli językowych kontekstowych (CLM), asystenci ci mogą teraz efektywnie działać na ekonomicznym sprzęcie, takim jak SL1680 lub SL1640.

Moduł Grinn

Asystent głosowy AI, rozpoznający kontekst, działa całkowicie na urządzeniu, bez odciążania lub polegania na chmurze. Oparty na płycie rozwojowej SYNAPTICS Astra™ Machina SL1680 Linux, oferuje kilka kluczowych funkcji:

  • Przetwarzanie mowy z uwzględnieniem kontekstu w celu naturalnego rozumienia konkretnych zapytań;
  • Szybki czas reakcji do 500 ms z wysoką dokładnością, niezależnie od usług w chmurze;
  • Rozszerzalność poprzez wywołania narzędzi, umożliwiająca integrację z urządzeniami peryferyjnymi lub opcjonalnymi usługami w chmurze;
  • Interakcja multimodalna, w tym obsługa zapytań wizualnych;
  • Generowanie odpowiedzi na podstawie ustrukturyzowanych i czystych zestawów danych pytań i odpowiedzi.

Projekt ten wykorzystuje wkład różnych inicjatyw i działań programistów zajmujących się sztuczną inteligencją typu open source, w tym:

  • Przekształcanie mowy na tekst: Moonshine firmy Useful Sensors Inc., które działa 5 razy szybciej niż Whisper i zapewnia większą dokładność;
  • Generowanie odpowiedzi: dopasowywanie pytań i odpowiedzi z uwzględnieniem kontekstu przy użyciu specjalistycznego modelu językowego;
  • Przekształcanie tekstu na mowę: Piper firmy Open Home Foundation do naturalnej syntezy mowy.

Jak to działa: Wizualizacja

Asystent przetwarza zapytania użytkowników, przekształcając je w wektory, które oddają ich znaczenie semantyczne za pomocą transformatora zdań. Ten format danych jest podobny do formatu używanego w bazach danych wektorowych w systemach Retrieval-Augmented Generation (RAG). W rezultacie asystent umożliwia wyszukiwanie semantyczne, pozwalając użytkownikom formułować zapytania w naturalny sposób, bez konieczności stosowania dokładnych sformułowań.

System jest celowo dostosowany do konkretnego kontekstu, łącząc czysty model językowy z wcześniej wygenerowanymi parami pytań i odpowiedzi. Zapewnia to niskie opóźnienia, dzięki czemu można go efektywnie wdrożyć na wbudowanej płycie Linux. Proces dopasowywania semantycznego umożliwia naturalne, prywatne i responsywne interakcje – idealne do konkretnych zastosowań, takich jak sterowanie urządzeniami lub zapytania dotyczące pomocy technicznej. Dzięki temu nadaje się on szczególnie do zastosowań w inteligentnych domach, handlu detalicznym lub przemyśle, które korzystają z niezawodnego sterowania głosowego.

Przegląd procesu

  • Wykrywanie aktywności głosowej (VAD): wykrywa moment, w którym użytkownik zaczyna mówić;
  • Przekształcanie mowy na tekst (STT): przekształca mowę na tekst za pomocą Moonshine;
  • Generowanie osadzeń: przekształca zapytanie użytkownika w osadzenie semantyczne;
  • Wyszukiwanie semantyczne: przeprowadza wyszukiwanie podobieństwa cosinusowego w stosunku do wcześniej wygenerowanych osadzeń pytań, aby znaleźć najbardziej trafną odpowiedź;
  • Przekształcanie tekstu na mowę (TTS): przekształca pobraną odpowiedź w naturalnie brzmiącą mowę (Piper);
  • Wywoływanie narzędzi: umożliwia interakcję z urządzeniami peryferyjnymi, modelami wizualnymi lub zewnętrznymi interfejsami API w celu uzyskania dodatkowych funkcji.

Moduły SOM oparte na SYNAPTICS Astra™

W celu integracji asystenta głosowego firma CODICO oferuje wybór modułów System-on-Modules (SOM), w tym rodzinę AP72xxx firmy AMPAK i moduł AstraSOM-1680 firmy Grinn.

  • Rodzina AP72xxx: moduły oparte na modelu SL1620 różnią się wersjami Wi-Fi i pojemnością pamięci;
  • SL1620: wyposażony w czterordzeniowy procesor Arm® Cortex®-A55 i procesor graficzny Imagination BXE 2-32, zapewniający wydajność AI do 700 GOPS;
  • SL1680: wyposażony w wydajny czterordzeniowy procesor Arm® Cortex®-A73 (2,1 GHz), procesor graficzny Imagination PowerVR Series9XE GE9920 oraz bezpieczny procesor NPU o wydajności 7,9+ TOPS. Obsługuje wiele frameworków DNN, dzięki czemu idealnie nadaje się do zastosowań AI w urządzeniach.

Cechy modułu AstraSOM-1680 Grinn:

  • Pamięć eMMC 16 GB
  • 2× 2 GB pamięci RAM LPDDR4×
  • Wyjście MIPI DSI® v1.2
  • Wejście MIPI CSI-2 z obsługą dwóch kamer
  • Dekodowanie/przetwarzanie dźwięku, w tym wykrywanie głosu z daleka (FFV) i wykrywanie słów kluczowych

Szczegółowy opis implementacji modelu języka specyficznego dla kontekstu można znaleźć na stronie dla programistów ASTRA™.

Astra SDK Pobierz z GitHub

Zestawy Astra Machina w sklepie z próbkami CODICO

Kontakt w celu uzyskania dalszych informacji lub próbek:

Pawel Pajda, inżynier ds. sprzedaży komponentów aktywnych – Polska, CODICO Polska

Pawel.Pajda@codico.com

Stacjonarny: +48 12 417 10 83 wew. 21, komórka: +48 602 533 063


CODICO zajmuje się projektowaniem i dystrybucją komponentów elektronicznych. Szeroka gama produktów obejmuje komponenty aktywne i pasywne oraz systemy połączeń. Firma działa jako niezależne, prywatne przedsiębiorstwo z siedzibą w austriackim Perchtoldsdorfie, na południe od Wiednia. Posiada kilka biur sprzedaży w Niemczech, Włoszech, Francji, Hiszpanii, Czechach, na Węgrzech, w Słowenii i Wielkiej Brytanii. Współpracuje również z firmami partnerskimi w Europie Środkowej i Wschodniej. Dzięki wysokiemu poziomowi wiedzy technicznej firma CODICO kładzie główny nacisk na usługi projektowe. Cechą wyróżniającą CODICO jest wsparcie techniczne, które zapewnia od fazy rozwoju do produktu końcowego, oraz zaangażowanie w sprzedaż wyłącznie produktów wysokiej jakości. codico.com 

Autor: CODICO
Firma zajmuje się projektowaniem i dystrybucją komponentów elektronicznych. Działa ze swojej austriackiej siedziby w Perchtoldsdorf, na południe od Wiednia, jako niezależne, prywatne przedsiębiorstwo. Utrzymuje też kilka biur sprzedaży w Niemczech, Włoszech, Francji, Hiszpanii, Czechach, na Węgrzech, w Słowenii i Wielkiej Brytanii, współpracując również z firmami partnerskimi w Europie Środkowej i Wschodniej. Portfolio obejmuje komponenty aktywne i pasywne oraz systemy połączeń. Dzięki wysokiemu poziomowi wiedzy technicznej, CODICO oferuje usługi projektowe i wsparcie techniczne.