Komputer, Teknologi maklumat

Visi komputer moden. Tugas dan visi komputer. Programming Vision Computer dalam Python

Bagaimana untuk mengajar komputer untuk memahami apa yang digambarkan dalam gambar atau gambar? Ini nampaknya mudah, tetapi untuk komputer ini adalah hanya satu matriks yang terdiri daripada sifar dan satu yang anda mahu untuk mendapatkan maklumat penting.

Apakah visi komputer? Ia adalah keupayaan untuk "melihat" komputer anda

Vision - adalah sumber penting maklumat untuk orang yang menggunakannya, kita mendapatkan, menurut anggaran pelbagai, dari 70 hingga 90% daripada semua maklumat. Dan, sudah tentu, jika kita mahu untuk mewujudkan sebuah kereta pintar, kita perlu melaksanakan kemahiran yang sama dan komputer.

Masalah penglihatan komputer boleh dinyatakan dengan jelas. Apa yang "melihat"? Difahamkan bahawa di mana terdapat hanya dengan melihat. Yang membuat kesimpulan perbezaan visi komputer dan penglihatan manusia. Wawasan untuk kita - ia adalah sumber pengetahuan tentang dunia, dan juga sebagai sumber maklumat metrik - iaitu, keupayaan untuk memahami jarak dan saiz.

imej kernel semantik

Melihat gambar, kita boleh menggambarkan ia dengan beberapa ciri-ciri, jadi untuk bercakap, untuk mendapatkan maklumat semantik.

Sebagai contoh, melihat gambar ini, kita boleh mengatakan bahawa ia adalah di luar rumah. Apa yang trafik bandar. Yang ada kereta. kita boleh meneka bahawa ini adalah Asia Tenggara kepada konfigurasi bangunan dan hieroglyphics. Potret Mao Zedong faham bahawa ini adalah Beijing, dan sesiapa yang melihat video secara langsung atau dirinya telah berada di sana, akan meneka bahawa ini adalah Tiananmen Square yang terkenal.

Apa yang boleh kita katakan lebih lanjut mengenai gambar, melihat ia? Kita boleh mengenal pasti objek dalam imej, untuk mengatakan, bahawa ada orang di sini lebih dekat - pagar. Di sini payung, poster yang bangunan. Ini adalah contoh kelas adalah objek yang sangat penting, yang terlibat dalam pencarian masa ini.

Masih kita boleh belajar beberapa ciri-ciri atau sifat-sifat objek. Sebagai contoh, di sini kita boleh menentukan bahawa ini bukanlah satu potret seorang Cina biasa, iaitu, Mao Zedong.

Menurut kenderaan itu boleh ditentukan bahawa ia adalah objek yang bergerak, dan ia adalah sukar, yang tidak cacat semasa pergerakan. Tentang bendera boleh dikatakan bahawa ia objek, mereka juga bergerak, tetapi mereka tidak sukar, sentiasa cacat. Dan di tempat kejadian ada angin, yang boleh ditentukan dengan membangunkan bendera, dan juga boleh menentukan arah angin, sebagai contoh, ia bertiup dari kiri ke kanan.

Jarak dan panjang dalam penglihatan komputer

Yang sangat penting adalah maklumat metrik tentang sains visi komputer. Ini adalah semua jenis jarak. Sebagai contoh, untuk rover adalah penting kerana kedua-dua pasukan adalah dari Bumi kira-kira 20 minit dan menjawab sebanyak. Oleh itu, pautan ke sana dan kembali - 40 minit. Dan jika kita membuat rancangan untuk arahan pergerakan Bumi, anda perlu mengambil kira perkara ini.

Berjaya mengintegrasikan teknologi visi komputer dalam permainan video. Menurut video, anda boleh membina model tiga dimensi objek, orang, dan foto pada pengguna boleh memulihkan model tiga dimensi bandar. Dan kemudian berjalan di atas mereka.

visi komputer - julat yang agak luas. Ia berkait rapat dengan pelbagai ilmu lain. Sebahagian daripada visi komputer Ia menangkap kawasan pemprosesan imej dan kadang-kadang memperuntukkan visi komputer, sejarah.

Analisis, pengiktirafan corak - jalan kepada penciptaan kecerdasan unggul

Marilah kita meneliti konsep-konsep ini secara berasingan.

Pemprosesan imej - ini adalah kawasan algoritma, di mana input dan output - imej, dan kita mempunyai dia melakukan sesuatu.

analisis imej - adalah kawasan penglihatan komputer, yang memberi tumpuan kepada bekerja dengan imej dua dimensi dan membuat kesimpulan daripada ini.

Pattern Recognition - disiplin matematik abstrak yang mengiktiraf data dalam bentuk vektor. Iaitu, di pintu masuk - vektor dan kami mempunyai sesuatu untuk dilakukan dengan ia. Di mana vektor, kita tidak begitu penting untuk mengetahui.

Komputer penglihatan - ia asalnya adalah untuk memulihkan struktur imej dua dimensi. Hari ini, kawasan ini telah menjadi lebih luas dan ia boleh ditafsirkan sebagai penerimaan semua objek fizikal membuat, berdasarkan imej. Iaitu, ia adalah tugas kecerdasan buatan.

Selari dengan visi komputer dalam bidang yang sama sekali berbeza, dalam geodesi, fotogrametri telah berkembang - ukuran jarak antara objek pada imej dua dimensi.

Robot boleh "melihat"

Dan akhirnya - ini adalah penglihatan mesin. Di bawah penglihatan mesin yang bermaksud penglihatan robot. Itu adalah keputusan beberapa masalah pengeluaran. Kita boleh mengatakan bahawa visi komputer - adalah salah satu sains besar. Ia menggabungkan beberapa bahagian sains yang lain. Dan apabila penglihatan komputer mendapat apa-apa permohonan tertentu, ia bertukar menjadi penglihatan mesin.

rantau visi komputer mempunyai jisim aplikasi praktikal. Ia dikaitkan dengan automasi pengeluaran. Di perusahaan menjadi lebih cekap untuk menggantikan kerja kasar oleh mesin. mesin tidak letih lesu, tidak tidur, dia mempunyai jadual kerja yang tidak teratur, dia sanggup bekerja 365 hari setahun. Jadi, dengan menggunakan mesin bekerja, kita boleh mendapat hasil yang dijamin di masa yang tertentu, dan ianya agak menarik. Semua tugas mempunyai penggunaan yang jelas untuk sistem penglihatan komputer. Dan tidak ada yang lebih baik daripada untuk menampakkan hasilnya pada gambar sahaja di peringkat pengiraan.

Di ambang dunia kecerdasan buatan

Plus kawasan - sukar! Sebahagian besar otak yang bertanggungjawab untuk penglihatan, dan ia dipercayai bahawa jika anda mengajar komputer anda untuk "melihat", iaitu, penglihatan penggunaan komputer penuh, ia adalah salah satu objektif kecerdasan buatan penuh. Jika kita dapat menyelesaikan masalah pada peringkat manusia, kemungkinan besar pada masa yang sama, kami akan menyelesaikan masalah AI. Yang sangat baik! Atau tidak sangat baik, jika anda melihat, "Terminator 2".

Mengapa penglihatan - ia adalah sukar? Kerana imej objek yang sama boleh berbeza bergantung kepada faktor-faktor luaran. Bergantung kepada objek mata pemerhatian kelihatan berbeza.

Sebagai contoh, satu angka yang sama, yang diambil dari sudut yang berbeza. Dan apa yang paling menarik dalam rajah yang berkenaan sebelah mata, dua mata setengah. Dan bergantung kepada konteks (jika imej ini lelaki dalam baju dengan mata dicat), mata boleh menjadi lebih daripada dua orang.

komputer masih tidak faham, tetapi ia "melihat"

Satu lagi faktor yang menjadikan ia sukar - ia pencahayaan. Adegan sama dengan pencahayaan yang berbeza akan kelihatan berbeza. saiz objek boleh berbeza-beza. Selain itu, matlamat mana-mana kelas. Bagaimana anda boleh katakan tentang seorang lelaki yang tingginya 2 meter? Apa-apa. pertumbuhan manusia dan mungkin 2,3 m, dan 80 cm. Seperti lain-lain jenis objek, bagaimanapun, adalah objek kelas yang sama.

Terutamanya objek hidup menjalani pelbagai jenis. Rambut orang, ahli sukan, haiwan. Melihat gambar-gambar kuda berjalan, menentukan apa yang berlaku dengan mane dan ekor hanya mustahil. A objek bertindih dalam imej? Jika anda mendorong imej komputer, walaupun mesin yang paling berkuasa mendapati sukar untuk memberi keputusan yang tepat.

Paparan seterusnya - ia seolah-olah ia. Beberapa objek, haiwan yang menyamar sebagai persekitaran, dan agak mahir. Dan tempat-tempat yang sama dan pewarna. Walau bagaimanapun, kita lihat mereka, walaupun tidak selalu dari jauh.

Satu lagi masalah - pergerakan. Objek dalam gerakan yang tidak dapat dibayangkan menjalani ubah bentuk.

Banyak objek yang sangat berubah-ubah. Di sini, sebagai contoh, dalam kedua-dua gambar di bawah objek yang "kerusi".

Dan pada ini, anda boleh duduk. Tetapi untuk mengajar mesin, seperti bahawa perkara-perkara yang berbeza dalam bentuk, warna, bahan, segala-galanya adalah objek "kerusi" - adalah sangat sukar. Ini adalah cabaran. Untuk mengintegrasikan kaedah visi komputer - adalah untuk mengajar mesin untuk memahami, menganalisis, membuat spekulasi.

Integrasi visi komputer dalam pelbagai platform

Jisim visi komputer mula menembusi lebih pada tahun 2001, apabila dia mencipta pengesan muka yang pertama. Kami berjaya dua penulis: Viola, Jones. Ia adalah algoritma cukup pantas dan boleh dipercayai yang pertama, yang menunjukkan kuasa kaedah pembelajaran mesin.

Sekarang visi komputer mempunyai cukup aplikasi praktikal baru - pengiktirafan wajah manusia.

Tetapi untuk mengenali lelaki itu seperti dalam filem - pada sudut rawak, keadaan pencahayaan yang berbeza - ia adalah mustahil. Tetapi untuk menyelesaikan masalah ini, atau satu yang orang yang berbeza dengan pencahayaan yang berbeza atau dalam pose yang berbeza, sama seperti dalam gambar dalam pasport, ia adalah mungkin dengan tahap keyakinan yang tinggi.

satu keperluan pasport photo sebahagian besarnya disebabkan oleh ciri-ciri algoritma pengecaman muka.

Sebagai contoh, jika anda mempunyai pasport biometrik, dalam beberapa lapangan terbang moden, anda boleh menggunakan sistem kawalan pasport automatik.

masalah yang tidak dapat diselesaikan visi komputer - keupayaan untuk mengenal pasti mana-mana teks

Mungkin seseorang menggunakan sistem OCR. Salah satu daripadanya - Reader Fine, adalah sangat popular dalam sistem RuNet. Terdapat banyak bentuk di mana anda mengisi data, mereka benar-benar diimbas, maklumat yang diiktiraf oleh sistem dengan baik. Tetapi dengan mana-mana teks dalam gambar keadaan adalah lebih buruk. Masalah ini masih tetap tidak dapat diselesaikan.

Permainan yang melibatkan penglihatan komputer, menangkap gerakan

kawasan-kawasan yang berasingan - ialah kejadian model tiga dimensi dan menangkap gerakan (yang agak berjaya dilaksanakan dalam permainan komputer). Program pertama yang menggunakan visi komputer - satu sistem interaksi dengan komputer ini menggunakan gerak isyarat. Apabila ia dibuat ia banyak perkara yang terbuka.

algoritma direka agak mudah, tetapi untuk mengkonfigurasi ia mengambil masa untuk membuat penjana imej sintetik orang untuk mendapatkan sejuta gambar. Supercomputer dengan mereka untuk memilih parameter algoritma, yang mana beliau kini berfungsi dengan baik.

Itu adalah satu juta imej dan minggu masa komputer super terbilangkan mungkin untuk membuat satu algoritma yang menggunakan 12% daripada kapasiti satu pemproses dan membolehkan seseorang untuk melihat kedudukan ini dalam masa yang sebenar. Sistem Microsoft Kinect (2010).

Cari imej dengan kandungan membolehkan anda untuk memuat naik foto ke dalam sistem, dan keputusan itu akan memberikan semua gambar-gambar dengan kandungan yang sama dan dibuat dari sudut yang sama.

Contoh visi komputer: tiga dimensi dan peta dua dimensi kini dibuat dengannya. Peta untuk kereta navigasi sentiasa dikemaskini mengikut DVR.

Terdapat pangkalan data dengan berbilion-bilion foto yang digeoteg. Dengan memuat turun gambar di dalam pangkalan data, anda boleh menentukan di mana ia dibuat, dan juga dengan beberapa perspektif. Sudah tentu, dengan syarat bahawa tempat itu adalah cukup bahawa popular pada satu masa pelancong dan membuat beberapa gambar kawasan itu telah berada di sana.

robot di mana-mana

Robotik pada masa ini, di mana-mana, tanpa dalam apa jua cara. Kini terdapat kenderaan yang mempunyai kamera khas yang mengiktiraf pejalan kaki dan papan tanda jalan untuk menghantar arahan kepada pemandu (ini dengan cara program komputer untuk melihat, membantu pemandu yang). Dan terdapat sebuah kenderaan robotik automatik sepenuhnya, tetapi mereka tidak boleh bergantung semata-mata kepada sistem kamera video tanpa menggunakan sejumlah besar maklumat tambahan.

kamera moden - ini adalah satu obscura kamera analog

Mari kita bercakap tentang imej digital. kamera digital moden disusun pada prinsip obscura kamera. Hanya bukannya lubang di mana cahaya memasuki rasuk dan diunjurkan ke dinding belakang kamar litar subjek ini, kami mempunyai sistem optik khas yang dipanggil kanta. objek adalah untuk mengumpul alur cahaya yang besar dan menukar ia supaya semua sinar melalui titik maya untuk mendapatkan unjuran dan membentuk imej pada filem atau matriks.

kamera digital moden (matriks) terdiri daripada unsur-unsur individu - piksel. Setiap piksel boleh mengukur tenaga cahaya yang kejadian pada jumlah piksel, dan mengeluarkan satu nombor output. Oleh itu, dalam kamera digital, kita akan mendapat bukan ukuran set cahaya kecerahan imej, terperangkap dalam piksel - komputer bidang pandangan. Oleh itu, apabila imej yang kita lihat tidak mengalir garis dan kontur yang jelas, dan grid segiempat berwarna dalam warna-warna yang berbeza - piksel.

Di bawah anda melihat imej digital yang pertama di dunia.

Tetapi dalam gambar ini tidak? Warna. Apakah warna?

persepsi psikologi warna

Warna - ini adalah apa yang kita lihat. Warna yang seorang dan perkara yang sama untuk manusia dan kucing akan berbeza. Oleh kerana kita (manusia) dan sistem optik haiwan - penglihatan adalah berbeza. Oleh itu, warna - ia adalah kualiti psikologi visi yang berlaku apabila memerhatikan objek dan cahaya. Dan bukan sifat fizikal objek dan cahaya. Warna - adalah hasil daripada interaksi komponen cahaya, dan tempat kejadian sistem visual kami.

Programming Vision Computer dalam Python menggunakan perpustakaan

Jika anda telah membuat keputusan untuk melibatkan diri secara serius dalam kajian visi komputer, segera harus bersedia untuk beberapa masalah, sains ini tidak adalah yang paling mudah dan menyembunyikan beberapa kesulitan. Tetapi "Programming Vision Computer pada Python" pengarang Jan Erik Solema - sebuah buku yang menggariskan semua bahasa yang paling mudah. Di sini anda akan mengetahui dengan kaedah pengiktirafan pelbagai objek dalam 3D, belajar untuk bekerja dengan imej stereo, realiti maya dan banyak aplikasi lain penglihatan komputer. Dalam buku ini adalah contoh yang cukup dalam Python. Tetapi penjelasan yang dibentangkan, boleh dikatakan, umum, supaya tidak memberi beban berlebih penyelidikan terlalu banyak dan data keras. Bekerja sesuai untuk pelajar, amatur, dan peminat. Muat turun buku ini dan orang lain tentang visi komputer (pdf format) boleh berada di dalam rangkaian.

Pada masa ini, terdapat perpustakaan sumber terbuka algoritma visi komputer dan pemprosesan imej dan algoritma berangka OpenCV. Ia dilaksanakan kebanyakan bahasa pengaturcaraan moden, adalah sumber terbuka. Jika kita bercakap mengenai visi komputer, Python menggunakan sebagai bahasa pengaturcaraan, ia juga mendapat sokongan daripada perpustakaan, di samping itu, ia sentiasa berkembang dan mempunyai komuniti yang besar.

syarikat "Microsoft" menyediakan perkhidmatannya Api-dapat untuk melatih rangkaian neural untuk bekerja dengan imej orang. Terdapat juga peluang untuk memohon visi komputer, Python menggunakan sebagai bahasa pengaturcaraan.

Komputer, Teknologi maklumat

Visi komputer moden. Tugas dan visi komputer. Programming Vision Computer dalam Python

Apakah visi komputer? Ia adalah keupayaan untuk "melihat" komputer anda

imej kernel semantik

Jarak dan panjang dalam penglihatan komputer

Analisis, pengiktirafan corak - jalan kepada penciptaan kecerdasan unggul

Robot boleh "melihat"

Di ambang dunia kecerdasan buatan

komputer masih tidak faham, tetapi ia "melihat"

Integrasi visi komputer dalam pelbagai platform

masalah yang tidak dapat diselesaikan visi komputer - keupayaan untuk mengenal pasti mana-mana teks

Permainan yang melibatkan penglihatan komputer, menangkap gerakan

robot di mana-mana

kamera moden - ini adalah satu obscura kamera analog

persepsi psikologi warna

Programming Vision Computer dalam Python menggunakan perpustakaan

Similar articles

Komputer

Komputer

Komputer

Komputer

Komputer

Komputer

Trending Now

Kesihatan

Makanan dan minuman

Berita dan Masyarakat

Makanan dan minuman

Kesihatan

Kesederhanaan

Newest

Hobi

Kesederhanaan

Kesihatan

Sukan dan Kecergasan

Kesederhanaan

Perkembangan intelek