Görsel Mikrofon, Sessiz Videolardaki Ortam Sesini "Duyabiliyor"

“Mary’nin Küçük Bir Kuzusu Vardı” şarkısı, bir kez daha işitsel tarih yazdı. Thomas Edison’un alüminyum folyo fonografına söyleyerek ilk ses kaydını gerçekleştirmesinden 130 küsur yıl sonra, Massachusetts Teknoloji Enstitüsü (MIT), Microsoft ve Adobe araştırmacıları tarafından aynı şarkı, dünyanın ilk “görsel mikrofon”u ünvanına sahip olan boş bir patates cipsi paketi tarafından kaydedildi. Geliştirilen algoritma, görsel mikrofon olarak kullanılan nesnenin hareketine bakarak ses yakalayabiliyor. Işıktan ses çıkarmak aslında tam olarak yeni bir şey değil. Lazer mikrofonlar yıllardır var. Buradaki fark ise görsel mikrofonun bütünüyle pasif bir cihaz olması; lazer ya da özel bir aydınlatma gerekmiyor.

İşitmemizi sağlayan duyu organlarımız olan kulaklar, çevredeki seslerin kulak zarı üzerinde yarattığı titreşimlerin beyin tarafından yorumlanmasına bağlı olarak çalışır. Konser alanları gibi yüksek seslerin çalındığı ortamlarda, kulak zarımızın ötesinde, şarkıların bas seslerinin titreşimini göğsümüzde de hissederiz. Benzer biçimde, ortamda çalan bir şarkı da cips paketi gibi ince ve hafif bir nesnede küçük (bir mikrometrenin onda biri civarı ölçekte) titreşimlere neden olur. Böylesine küçük titreşimleri gözümüz fark edemese de, MIT ekibinin ses geçirmez camın ardına yerleştirdiği yüksek-hızlı kamera fark edebiliyordu. Araştırmacılar sadece poşetin küçük titreyişlerini çözümleyerek, ortamda çalan şarkının bütününü yeniden üretmeyi başardıklarını ilk olarak 2014 yılının Ağustos ayında duyurdu. MIT tarafından yapılan açıklamada, ses geçirmez bir camın ardında, kameradan 4,5 m uzaklıkta bulunan bir cips paketinin titreşimlerinin analiz edilmesi sonucunda, ortam seslerinin yeniden yaratılabildiği açıklandı.

Çalışma büyük ölçüde yüksek hızlı kameralar ile gerçekleştirildi. Bu tür cihazlar oldukça pahalı ama ekip herkesin elinde bulunabilen daha düşük hızlı kameralar kullanılarak da, biraz daha düşük kalitede olsa da aynı işlemin yapılabileceğini gösterdi. Bunu yapmak için günümüzde kullanılan CMOS görüntüleyici bazlı kameraların çoğundaki “döner perde”den (İng. rolling shutter) yararlanılıyor. Döner perde CMOS sensörleri, her seferinde bir satırlık görüntü yakalıyor. Her bir satır, yüksek hızlı kameranın karelerine yapılana benzer şekilde işlenebiliyor. Kamera herhangi bir şey kaydetmiyorken kareler arası boşluklar oluyor ama düşük çözünürlükte de olsa, ortam sesi çıkarılabiliyor.

Her Nesne Mikrofon Görevi Görebilir mi?

"Normal mikrofonlar, içlerindeki bir diyaframın hareketini elektriksel sinyale dönüştürerek çalışır. Bu diyafram sesle hemen hareket edecek şekilde tasarlanmıştır, böylece hareketi kaydedilebilir ve ses olarak yorumlanabilir," diye açıklıyor Davis ve görsel mikrofonun, dünyayı veri bakımından daha zengin bir yer hâline getirdiğini belirtiyor. “Videonun, orada olduğundan haberimizin olmadığı tüm o enformasyonu içerdiğini göstermiş olduk. Bu, dünyayı görüntüleyebilme biçimimize yeni bir boyut getiriyor,” diyor. Yani yüksek hızlı kameralar kullanarak, gündelik yaşamda kullanılan nesneler üzerinde ortam sesleri nedeniyle oluşan titreşimleri kaydetmek ve daha sonra sesleri yeniden yaratmak olanaklı; dolayısıyla titreşen herhangi bir nesne mikrofona dönüşebilir. Alüminyum folyo, bitki yaprağı ve su yüzeyi gibi titreşmeye müsait her türlü nesne sayesinde bu işlem yapılabiliyor. Örneğin, konuşan birinin ne dediğini duyamıyorsunuz ama yanında duran saksıdaki çiçeğin yapraklarının titreşimlerini videoya alabiliyorsanız, kişinin konuştuklarını bu yöntem sayesinde ortaya çıkarabilirsiniz. Araştırmacıların verdiği bir örnekte, ekip bir kulaklığı filme alıp çalan şarkıyı yeniden yaratmayı denediğinde, ortaya çıkardıkları ses verisi, Shazam uygulamasının şarkıyı tanımlamasına yetecek netlikteydi.

“Ses bir nesneye çarptığında, nesnenin titreşmesine neden olur. Bu titreşim hareketi, insan gözünün seçemeyeceği kadar ince bir görsel fark da yaratır. İnsanlar, bu bilginin orada olduğunu şimdiye dek fark edememişlerdi,” diyor Davis. Ekip, yöntemi kulaklık dışında pek çok farklı nesne kullanarak da sınadı; cips paketi (çok iyi), soda kutusu (şaşırtıcı ölçüde vasat) ve saksı bitkisi (ortalama) gibi. En iyi sonuç aldıkları malzeme ise Davis’in atıştırdığı çikolatanın dışında sarılı olan ince alüminyum folyo oldu. En kötü sonuç veren malzeme tuğla idi ama Davis tuğlada bile beklediğinden daha iyi bir sonuç çıktığını ekliyor.

Algoritma Nasıl İşliyor?

Ekibin hazırladığı algoritma, video karelerinin renk filtreleri ile taranması ve ardından farklı yönelim ve ölçeklerde nesnelerin uçlarındaki renklerde oluşabilen değişimlere bakarak işliyor. Algoritma bu değişimleri kullanarak, nesnelerin ses dolayısıyla oluşan hareketlerini ölçüyor ve hareketleri, birbirlerini sönümlendirmeyecek şekilde düzenliyor. Böylelikle titreşime neden olan ses saptanıyor, çözümleniyor ve yeniden yapılandırılıyor.

İşin en önemli yanı, sesi yeniden yapılandırmaya yetecek miktarda enformasyon elde edebilmek. Uygulamada, bunun anlamı, standart saniyede 24 kare veya akıllı telefonlardaki 60 fps’den daha hızlı kameralar kullanmak. Çünkü video frekansının, analiz edilecek sesinkinden daha yüksek olması gerekiyor. MIT ekibinin durumunda, bunun anlamı 2.000 ilâ 6.000 fps idi. Araştırmacılar, telefon kameraları ile yapılan çekimlerden net olarak ortam sesini çıkarmak mümkün olmasa da, konuşan kişinin cinsiyetini, konuşan kişi sayısını ve hatta kim olduklarını anlamanın mümkün olabileceğini belirtiyorlar.

Ekip, düşük çözünürlüklü bir kameranın bile bolca enformasyon sağlayabileceğini ekliyor, çünkü modern video kameraların en basitleri bile milyonlarca fotodedektör içeren karmaşık cihazlar. Bu dizi, enteresan etkiler üretiyor; uçan bir helikopteri fotoğraflarken oluşan yamulma gibi. Film üzerinde bu bir bulanıklık yaratır, ama bir dijital kamerada, pervanenin parçalarının sarmal görünmesini sağlayacak bir yamulmaya (döner perde etkisine) neden olabilir. Algoritma için bu yamulmanın anlamı, analiz edilecek daha fazla veri demektir; bu da telefon videolarından bile ses çıkarabilmesine olanak tanıyor.

MIT, yeni algoritmanın en heyecan verici yanlarından birinin, farklı nesnelerin sese farklı şekillerde yanıt vermesine (mikrometrenin onda biri duyarlılıkla ölçülebiliyor) bağlı olarak, videolardan şaşırtıcı netlikte enformasyon çıkarılmasını sağlayan bir görüntüleme tekniği sağlaması olduğunu belirtiyor. Ulaşılan duyarlılık, bir pikselin binde biri civarında oluyor. Videodaki bir nesnenin kenar piksellerindeki renk değişimlerine bakarak, algoritma nesnenin küçük hareketlerini ölçüp hesaplayabiliyor. Peki nasıl oluyor da MIT ekibi, bir pikselden daha küçük bir videodan enformasyon elde etmeyi başarabiliyor? Pikselin kendisindeki değişimlere dayalı çıkarımlar yaparak, algoritma bunu başarıyor. Verilen bir örnekte, yarısı kırmızı yarısı mavi bir ekran bulunuyor. Karşılaştıkları yerde mavi ve kırmızılar karışınca, pikseller mora dönüyor. Eğer çok ince bir düzeyde bile kırmızı maviden çok olmaya başlarsa, mavi çizgi kırmızılaşıyor; dolayısıyla piksel düzeyinin altında olsa bile çizgide neler olduğunu anlamak olanaklı oluyor.

Kaynak ve İleri Okuma