Android მობილური ოპერაციული სისტემის ბოლო ვერსიაში ვებ-გიგანტმა დიდი ცვლილებები შეიტანა იმაში თუ როგორ აღიქვამს მოწყობილობა თქვენს ხმოვან ბრძანებებს ან საუბარს. Google-მა შექმნა ხმის ამოცნობის სისტემა, რომელიც ნეირონულ ქსელებს ეფუძნება და არის კომპიუტერიზებული სისტემა რომელიც სწავლობს ისევე როგორც ადამიანის ტვინი.
ვინსენტ ვანჰუსკი, რომელიც არის მეცნიერი-მკვლევარი Google-ში ამბობს, რომ მრავალი მომხმარებლისთვის ძიების შედეგები შთამბეჭდავი იყო. “ნაწილობრივ ეს მოულოდნელიც იყო, თუ როგორ შევძელით გაგვეუმჯობესებინა საუბრის ამოცნობა იმით, რომ შევცვალეთ მოდელი” – ამბობს ის.
ვანჰუსკი ამბობს, რომ Android-ის ახალ ვერსიაში რომელიც ცნობილია როგორც Jelly Bean შეცდომების რაოდენობა 25%-ით ნაკლებია ვიდრე წინამორბედში და ეს ამ სისტემის მოხმარებას უფრო კომფორტულს და სასიამოვნოს ხდის მომხმარებლისთვის. დღეს მომხმარებლებს ურჩევნიათ გამოყენონ ბუნებრივი ენა როცა თავიანთ სმარტფონთან ურთიერთოებენ. სხვა სიტყვებით, რომ ვთქვათ ისინი ნაკლებად აღიქვამენ მას როგორც რობოტს “რაც მართლაც ცვლის ადამიანების ქცევას”
ეს მხოლოდ ერთი მაგალითია იმის, თუ როგორ ცვლის ნეიროქსელებზე დაფუძნებული ალგორითმები ჩვენი ტექნოლოგიების მუშაობას – და იმას თუ როგორ მოვიხმართ ჩვენ მას. კველევების ეს სფერო დიდი ხნის განმავლობაში უყურადღებოდ იყო დარჩენილი, ბოლოს ნეიროქსელებს გასული საუკუნის 80-იან წლებში შეისწავლიდნენ დიდი ენთუზიაზმით და ახლა უკვე ამით დაინტერესების ახალი ეტაპი იწყება. Microsoft, IBM და Google ცდილობენ მის გამოყენებას რეალურ ტექნოლოგიებში.
როცა თქვენ Android-ის ხმის ამოცნობის სისტემას ესაუბრებით, თქვენი საუბრის სპექტროგრამა იჭრება და იგზავნება 8 სხვა და სხვა კომპიუტერზე, რომლებიც Google-ის სერვერების არმიისაგან შედგება. შემდეგ სერვერები საუბარს ვანჰუსკის და მისი გუნდის მიერ შემუშავებული ნეიროქსელური ალგორითმების საშუალებით ამუშავებენ. Google ცნობილია იმით, რომ ადვილად უმკლავდება დიდი გამოთვლითი ამოცანების სწარაფად ამოხსნით – ამ შემთხვევაში Google-მა მიმართა ჯეფ დინს და მის ინჟინრების გუნდს, ჯგუფს, რომელიც ცნობილია იმით, რომ სწორედ მათ გამოიგონეს თანამედროვე ინფორმაციის გადამუშავების ცენტრები (დატა-ცენტრები)
Jelly Bean-ის შემთხვევაში მკვლევეარებს, როგორიცაა ვანჰუსკი საშუალება მიეცა გაეანალიზებინათ უამრავი შაბლონი, წარმოთქმული სიტყვების სპექტროგრამა და შემდგომში უკვე ნაწინასწარმეტყველები შაბლონები. მეტაფორა ბიოლოგიიდან მოდის, სადაც ნეირონები სხეულში ქსელს აფორმირებენ, რომლის საშუალებითაც სიგნალების ერთგვარი დამუშავება ხორცეილდება. ნეირონული ქსელების შემთხვევაში რომელიც Jelly Bean-ში გამოიყენება Google-მა შეძლო შეექმნა რამოდენიმე მოდელი, იმისა თუ როგორ მუშაობს ენა – მაგ. ინგლისური ენისათვის გამოყენებულ იქნა რეალური ინფორმაციის ძალიან დიდი ბაზა.
“ადამიანებს ძალიან დიდი ხნის განმავლობაში ჯეროდათ, რომ იმისთვის რომ მივიღოთ აღქმის კარგი სისტემა საჭიროა რამდენიმე ფუნქციონალური დონე” – ამბობს ჯეფრი ჰინტნო, რომელიც კომპიუტერულ მეცნიერებათა პროფესორია ტორონტოს უნივერსიტეტში – “მაგრამ საქმე იმაშია თუ, როგორ მოახდენთ მათი ეფექტურად სწავლებას”
Android იღებს ხმოვანი ბრძანებების სურათს, ხოლო Google ამუშავებს მათ ნეიროქსელური მოდელის საშუალებით, რომ გაარკვიოს თუ რაზეა საუბარი.
თავიდან Google ცდილობს საუბარი რამდენიმე ნაწილად დაყოს – განსხვავებულ ხმოვან და თანხმოვან ბგრეებად, რომლებისგანაც სიტყვა შედგება. ეს ნეირონული ქსელის ერთი დონეა. შემდეგ ამ ინფორმაციას უფრო რთული გათვლისთვის იყენებს და აერთიანებს ბგერებს სიტყვებად და სიტყვებს წინადადებებად. ამ მოდელის ყოველი დონე აახლოებს სისტემას იმასთან თუ რა ითქვა სინამდვილეში.
ნეიქოქსელური ალგორითმები შესაძლებელია გამოსახულებისა ანალიზისთვისაც იქნეს გამოყენებული. “საჭიროა მხოლოდ ვიპოვოთ სტრუქტურიზებული პისელების მცირე ნაჭრები, მაგ. სურათის კუთხეები” – ამბობს ჰინტონი “თქვენ შეგიძლიათ გქონდეთ დეტექტირების დონე სადაც იძებნება პატარა კუთხეები, შემდეგ დონეზე ითვლება ამ კუთხეების კობინაციები ობიექტების ძებნისათვის. ამის შემდეგ თქვენ შემდეგ ეტაპზე გადადიხართ და ა. შ.”
ნეირონული ქსელები ამას 80-იან წლებში გვპიდებოდნენ, მაგრამ მაშინ მრავალდონიანი მიდგომის განხორციელება ანალიზის სირთულის გამო ვერ განხორციელდა.
2006 წელს ორი დიდი ცვლილება მოხდა. პირველ რიგში ჰინტონმა და მისმა ჯგუფმა დაამუშავეს უფრო ღრმა ნერონული ქსელები, რომლებიც შეგებიან კავშირების მრავალდონიანი არაერთგავროვანი სისტემით. მეორე ის, რომ საკმაოდ იაფი გრაფიკული პროცესორების გამოსვლამ ბაზარზე მეცნიერებს საშუალება მისცა სწრაფად შაეტარებინათ საჭირო გამოთვლები. “ეს ძალიან დიდი განსხვავებაა, როცა თქვენ 30-ჯერ უფრო სწრაფად შეგიძლიათ შედეგების მიღება” – ამბობს ჰინტონი.
დღეს ქსელური ნეირონული ანლოგითმები უფრო პოპულარული ხდება ხმისა და გამოსახულების ამოცნობაში, მაგრამ ჰინტონი მათ მომამვალს ყველა სფეროში ხედავს, სადაც წინასწარმეტყველაბა საჭირო. ნოემბერში ტორონტოს უნივერსიტეტში მკვლევარებმა გამოიყენეს ნეირონული ქსელები იმის გამოსაკვლევად თუ როგორ იმოქმედებს მედიკამენტის მოლეკულა რეალურ სამყაროში.
ჯეფ დინი ამბოს, რომ Google ახლა იყენებს ნეირონულ ალგორითმებს სხვა და სხვა პროდუქტში – ზოგიერთი ექსპერიმენტულია, ზოგიერთი არა – მაგრამ არც ერთი არ წასულა უფრო წინ ვიდრე Jelly Bean-ის ხმის ამოცნობა. Google Street View ნეირონულ ალგორითმს იყენებს სურათებზე ობიერქტების ამოსაცნობად, მაგ. ერთმანეთისგან არჩევს სახლებს და ავტომობილების სანომრე ნიშნებს.
თუ თქვენ ფიქრობთ, რომ ყველაფერ ამას ჩვეულებრივი ადამიანებისთვის მნიშვნელობა არა აქვს გაითვალისწინეთ ერთი რამ. გასულ წელს Google–ის მკვლევარებმა დინის ჩათვლის, ააგეს ნეირონული ქსელი, რომელიც დამოუკიდებლად პოულობს კატებს YouTebe-ის ვიდეო რგოლებში.
Microsoft და IBM ასევე სწავლობენ ნეირონულ ქსელებს და ოქტომბერში Microsoft-ის მთავარმა მკვლევარმა რიკ რაშიდმა ჩინეთში მოახდინა დემონსტრირება სისტემისა რომელიც ხმას ამოიცნობს ნეირონული ქსელების საშალებით. დემონსტრირებისას რაშიდი ინგლისურად საუბრობდა და პაუზას აკეთებდა ყოველი ფრაზის შემდეგ. პაუზების დროს პროგრამა თარგმნიდა ფრაზებს ჩინურად და ასმენინებდა აუდიოტრიას, ის რაშიდის ინტონაციების გამორებასაც ახერხებდა.
“ჩვენ კიდევ უფრო მეტი სამუშაოს შესრულება მოგვიწევს მომავაში” – ამბობდა ის -“მაგრამ ტექნოლოგია პერსპექტიულია, და ვიმედოვნებთ, რომ რამდენიმე წლის შემდეგ ჩვენ შევძლებთ გავარღვიოთ ადამიანებს შორის არსებული ენობრივი ბარიერი. პირადად მე ვთვლი, რომ ეს ჩვენს სამყაროს გააუმჯობესებს”
წყარო: habrahabr.ru

