Senzorul de temperatură a asistat îmbunătățirea pe viață a sistemelor încorporate prin satelit prin sarcină multi-core
Abstract
1. Introducere
Ultimul deceniu a asistat la o creștere dramatică a industriei spațiale; Din 2010 până în 2015, piața nano/microsatelit a crescut la o medie anuală de 39% și se așteaptă ca, din 2016 până în 2022, să crească în continuare la o creștere anuală de 13% [1]. În special, cererea de sateliți mici a crescut semnificativ pe măsură ce industria spațială a trecut de la guvern la piața privată. În conformitate cu o astfel de nevoie crescândă de sateliți mici sau misiuni spațiale, standardul CubeSat a fost inițiat [2] pentru sateliții mici care cântăresc aproximativ câteva kilograme (În standard, 1 unitate este un cub de 10 cm (10 × 10 × 10 cm) ) 3) cu o masă de cel mult 1,33 kg. Un satelit poate consta dintr-un singur (1U) sau mai multe cuburi (3U, 6U, 12U și 27U).). În timp ce CubeSats au fost inițial dezvoltate în scopuri educaționale sau demonstrative, utilizările lor au fost extinse la misiuni mai generale și mai avansate, inclusiv aplicații științifice, explorarea spațiului profund și așa mai departe [3].
În timp ce sistemele de satelit sunt expuse la condiții extreme în termeni de radiații și temperatură, se așteaptă să funcționeze mult timp fără întreținere. Mai mult, misiunile impuse unor sateliți atât de mici devin din ce în ce mai serioși în timp. Cu alte cuvinte, cerințele de performanță sau fiabilitate ale computerului de bord ale sistemelor de satelit continuă să crească. Astfel, este tipic să proiectăm sistemul de satelit cu procesoare întărite la radiații [4] care, în general, au performanțe mai slabe decât cele normale. Pentru a îndeplini cerințele de fiabilitate și performanță în același timp, a fost propusă abordarea de calcul reconfigurabilă cu tablouri de poartă programabile în câmp (FPGA), unde pot fi încorporate diverse tehnici de toleranță la erori [5,6,7].
Deoarece CubeSats sunt supuse multor constrângeri fizice, inclusiv volumul și greutatea, este dificil să se utilizeze baterii mari sau panouri solare. CubeSats-urile tipice cu panouri solare montate pe corp generează mai puțin de 10 W, iar panourile solare implementabile de ultimă generație produc 20-30 W. Bateriile care sunt utilizate în CubeSats depozitează de obicei doar 14-30 W · h [8]. În SwissCube [9], de exemplu, puterea medie generată de panourile solare pe orbită este de doar 1,5 W. Un astfel de buget energetic limitat poate restrânge performanța computerului la bord. Modul de satisfacere a cererii crescânde de performanță și fiabilitate în cadrul bugetului de putere dat este o provocare.
Fiabilitatea este una dintre preocupările cheie de proiectare ale unui satelit. Majoritatea misiunilor spațiale necesită o durată lungă de viață. În general, sateliții cu orbită terestră joasă (LEO) tind să aibă o durată de viață așteptată mai scurtă (5-10 ani) decât cea a sateliților cu orbită geostaționară (GEO) (15 ani sau mai mult). Întrucât întreținerea este imposibilă din punct de vedere fizic în sistemele de satelit, este esențial să le proiectăm pentru a funcționa pe o durată lungă de viață, fără niciun defect. Efectul ciclului termic (TC) pe care îl experimentează satelitul în schimbări extreme de temperatură este una dintre amenințările majore de fiabilitate. Într-un LEO CubeSat (SwissCube), de exemplu, se raportează că temperatura externă se schimbă de la 30 ∘ C la -30 ∘ C așa cum este ilustrat în Figura 1 [10]. Pentru a menține sistemul intact în schimbări severe de temperatură externă, multe protecții fizice, inclusiv controlul termic, izolația multistrat, ecranele solare, radiatoarele, conductele de căldură și așa mai departe, sunt aplicate în sateliții high-end. Cu toate acestea, pentru sateliții mici, cum ar fi CubeSats, este dificil să aveți pe deplin astfel de protecții fizice datorită costurilor și constrângerilor fizice.

Măsurători de temperatură în SwissCube [10] (BAT: baterie, EXT: externă, PCB: placă cu circuite imprimate și MB: placă de bază).
În această lucrare, inspirată de faptul că majoritatea sateliților mici sunt echipați cu senzori de temperatură, încercăm să îmbunătățim durata de viață a sistemelor mici de satelit proiectate cu procesoare multi-core fără protecții fizice prin ajustarea configurației multi-core într-o temperatură - mod conștient. Până în prezent, majoritatea tehnicilor de îmbunătățire a fiabilității au încercat să mențină temperatura de funcționare cât mai scăzută posibil [11,12,13], deoarece se știe că temperaturile ridicate au ca rezultat o fiabilitate redusă. Cu toate acestea, în sistemele de satelit, acest lucru nu poate fi cazul, deoarece temperatura externă variază foarte mult așa cum se arată în Figura 1. Adică, în unele cazuri, eforturile artificiale de reducere a temperaturii cipului pot avea mai degrabă un efect advers al creșterii amplitudinii TC.
Pentru a îmbunătăți fiabilitatea pe durata de viață, având în vedere acest efect TC, ne propunem să reglați cu prudență maparea volumului de lucru al software-ului pe mai multe nuclee și frecvența de operare a nucleelor într-un mod care să minimizeze amplitudinea TC. În plus, injectăm o sarcină de lucru virtuală în sistem dacă este necesar să disipăm mai multă putere pentru a îmbunătăți fiabilitatea. Procedând astfel, programabilitatea în timp real a misiunii sateliților și constrângerile de putere ar trebui să fie încă satisfăcute.
Contribuțiile noastre pot fi rezumate după cum urmează:
identificăm anomalia vieții, în care temperaturile mai scăzute duc la o viață așteptată și mai proastă în sistemele de satelit;
apoi, pentru a atenua efectele TC, identificate mai sus, propunem o tehnică de cartografiere/atribuire a frecvenței pentru sistemele de satelit multi-core.
În tehnica propusă, vizăm sistemele de satelit implementate deasupra unui sistem omogen multi-core, unde fiecare nucleu poate avea o configurație independentă de frecvență/tensiune (în timp ce multe platforme multi-core disponibile comercial acceptă doar modularea frecvenței și tensiunii la nivel de cluster, există astfel de sisteme flexibile [14] și alte tehnici de îmbunătățire a fiabilității, inclusiv [15] vizează, de asemenea, aceeași arhitectură.). Ca sarcini de lucru, presupunem că software-ul sateliților este implementat ca un set de sarcini invocate periodic în timp real. Pentru a permite evaluarea rapidă, dar precisă a temperaturii, presupunem că timpul de executare a sarcinii este suficient de lung pentru a atinge temperatura la starea de echilibru. Credem că această ipoteză este rezonabilă datorită consumului redus de energie al sistemelor de satelit. Inexactitatea care poate fi cauzată de aceasta este analizată în secțiunea 4.4. Pentru a cuantifica fiabilitatea sistemului, adoptăm modelul propus de Xiang și colab. [16], unde durata de viață este determinată pe baza profilului de temperatură temporală. Luând în considerare impactul gradienților de temperatură spațială asupra fiabilității rămân ca o lucrare viitoare.
Restul acestei lucrări este organizat după cum urmează: În secțiunea următoare, vom discuta despre lucrările aferente și de ce tehnicile existente sunt ineficiente în sistemele de satelit. Secțiunea 3 definește cantitativ problema propusă cu modele de sarcini, arhitectură, putere/temperatură și fiabilitate. Secțiunea 4 descrie metoda noastră pentru a maximiza fiabilitatea pe viață a sistemelor încorporate multi-core prin satelit LEO în trei pași. Evaluările sunt efectuate în simulare în secțiunea 5 pentru a arăta cum tehnica propusă îmbunătățește fiabilitatea pe durata vieții, urmată de observații finale și lucrări viitoare în secțiunea 6.
2. Lucrări conexe
În plus față de efectul TC pe care îl luăm în considerare în principal în această lucrare, există alte trei cauze cunoscute ale defecțiunilor în circuitele integrate CMOS (IC): electromigrarea (EM), defecțiunea dielectrică dependentă de timp (TDDB) și migrarea stresului (SM) [17]. Fiecare dintre aceste mecanisme de eșec este cuantificat prin Timpul mediu până la eșec (MTTF), care este durata de viață așteptată privind sursa de eșec [18]. Majoritatea lucrărilor existente s-au concentrat pe fiecare dintre cauzele menționate mai sus în mod individual, de exemplu, EM [18,19,20], TDDB [18,21], SM [18] și TC [18,22]. Deoarece aceste cauze coexistă fizic în funcționarea IC-urilor, este important să le luăm în considerare în același timp. Srinvasan și colab. [23] a propus modelul de fiabilitate a microprocesorului conștient (RAMP) cu instabilitate negativă a temperaturii de polarizare (NBTI), în plus față de cele patru cauze menționate mai sus. Cele cinci cauze diferite ale eșecului sunt cuantificate în termeni de fiabilitate utilizând modelul sumelor ratelor de eșec (SOFR), în care se presupune că fiecare mecanism de eșec este asociat cu o rată de eșec constantă. Xiang și colab. [16] a propus un model de fiabilitate la nivel de sistem cu EM, TDDB, SM și TC bazat pe simulările Monte Carlo.