Cum funcționează rețelele neuronale - și de ce au devenit o afacere mare

Aurich Lawson / Getty

Ultimul deceniu a înregistrat îmbunătățiri remarcabile în capacitatea computerelor de a înțelege lumea din jurul lor. Software-ul foto recunoaște automat fețele oamenilor. Smartphone-urile transcriu cuvintele rostite în text. Mașinile cu autovehicul recunosc obiectele de pe șosea și evită să le lovești.

La baza acestor descoperiri se află o tehnică de inteligență artificială numită invatare profunda. Învățarea profundă se bazează pe rețele neuronale, un tip de structură de date inspirat de rețelele de neuroni biologici. Rețelele neuronale sunt organizate în straturi, cu intrări dintr-un strat conectate la ieșiri din următorul strat.

Informaticienii experimentează cu rețelele neuronale încă din anii '50. Dar două mari descoperiri – una în 1986, cealaltă în 2012 – au pus bazele vastei industrii de învățare profundă de astăzi. Descoperirea din 2012 – revoluția profundă a învățării – a fost descoperirea că putem obține performanțe dramatic mai bune din rețelele neuronale, nu doar cu câteva straturi, dar cu multe. Această descoperire a fost posibilă datorită creșterii cantității de date și a puterii de calcul devenite disponibile până în 2012.

Această caracteristică oferă un primer pe rețelele neuronale. Vom explica ce sunt rețelele neuronale, cum funcționează și de unde provin. Și vom explora de ce – în ciuda a numeroase decenii de cercetări anterioare – rețelele neuronale au intrat într-adevăr în cont propriu din 2012.

Aceasta este prima dintr-o serie în mai multe părți despre învățarea mașinilor – în săptămânile viitoare vom arunca o privire mai atentă la învățarea cu alimentare hardware, vom examina modul în care rețelele neuronale au permis apariția falsurilor profunde și multe altele.

Rețelele neuronale datează din anii '50

Frank Rosenblatt lucrează pe perceptronul său - un model timpuriu pentru rețelele neuronale. "Src =" https://cdn.arstechnica.net/wp-content/uploads/2019/11/0925_rosenblatt_main-640x360.jpg "width =" 640 "înălțime = "360" srcset = "https://cdn.arstechnica.net/wp-content/uploads/2019/11/0925_rosenblatt_main.jpg 2x
Mări / Frank Rosenblatt lucrează pe perceptonul său – un model timpuriu pentru rețelele neuronale.

Rețelele neuronale sunt o idee veche – cel puțin după standardele de informatică. În 1957, Frank Rosenblatt, Universitatea Cornell, a publicat un raport care descrie o concepție timpurie a rețelelor neuronale numită a perceptron. În 1958, cu sprijinul Marinei SUA, a construit un sistem primitiv care putea analiza o imagine 20-by-20 și să recunoască forme geometrice simple.

Obiectivul principal al lui Rosenblatt nu a fost construirea unui sistem practic pentru clasificarea imaginilor. Mai degrabă, încerca să obțină idei despre creierul uman, construind sisteme informatice organizate într-un mod asemănător creierului. Dar conceptul a acumulat un anumit entuziasm.

"Marina a dezvăluit astăzi embrionul unui computer electronic care se așteaptă că va putea să meargă, să vorbească, să vadă, să scrie, să se reproducă și să fie conștient de existența sa", a relatat The New York Times.

Fundamental, fiecare neuron dintr-o rețea neuronală este doar o funcție matematică. Fiecare neuron calculează o medie ponderată a intrărilor sale – cu cât este mai mare o greutate a intrării, cu atât această intrare afectează ieșirea neuronului. Această medie ponderată este apoi introdusă într-o funcție neliniară numită funcție de activare – o etapă care permite rețelelor neuronale să modeleze fenomene neliniare complexe.

Puterea experimentelor timpurii de perceptron ale lui Rosenblatt – și ale rețelelor neuronale mai general – provine din capacitatea lor de a „învăța” din exemple. O rețea neuronală este antrenată prin ajustarea greutăților de intrare a neuronilor în funcție de performanța rețelei pe inputuri de exemplu. Dacă rețeaua clasifică corect o imagine, ponderile care contribuie la răspunsul corect sunt crescute, în timp ce alte greutăți sunt reduse. Dacă rețeaua clasifică greșit o imagine, greutățile sunt reglate în sens invers.

Această procedură a permis rețelelor neuronale timpurii să „învețe” într-un mod care să semene superficial cu comportamentul sistemului nervos uman. Abordarea s-a bucurat de un deceniu de hype în anii ’60. Dar apoi o carte influentă din 1969, de către informaticienii Marvin Minsky și Seymour Papert, a demonstrat că aceste rețele neuronale timpurii aveau limitări semnificative.

Rețelele neuronale timpurii ale lui Rosenblatt aveau doar unul sau două straturi antrenabile. Minsky și Papert au arătat că astfel de rețele simple sunt incapabile din punct de vedere matematic de a modela fenomene complexe din lumea reală.

În principiu, rețelele neuronale mai profunde erau mai versatile. Însă rețelele mai adânci ar fi încordat resursele slabe de calcul disponibile la momentul respectiv. Mai important, nimeni nu a dezvoltat un algoritm eficient pentru a antrena rețelele neuronale profunde. Algoritmii simpli de alpinism utilizați în primele rețele neuronale nu s-au adaptat la rețele mai profunde.

Drept urmare, rețelele neuronale au căzut în favoarea anilor '70 și începutul anilor '80 – o parte a „iernii AI”.

Sursa articol

LĂSAȚI UN MESAJ

Please enter your comment!
Please enter your name here