Google arama sayfalarında daha önce de taranmış evraklar görüyorduk. Fakat o zamanlar arama robortu sonuçları dokümanın META bilgilerini kullanarak yakalıyordu ve dokümanlar da sıradan resimler olarak görüntüleniyordu.*
Bugün ise Google arama robotuna
OCR öğrettiğini açıkladı. Optik Karakter Tanıma teknolojisi sayesinde
Adobe PDF formatında kaydedilen taranmış belgeleri tanıyarak kelimelerin resimlerini gerçek kelimelere dönüştürüp endeksliyor.
Google ürün müdürlerinden
Evin Levey bir blog'unda "Geçmişte taranmış belgeler arama sonuçlarında nadiren görünürdü çünkü içeriklerinden emin olamıyorduk. Belgeye ait oradan-buradan*referans olabilecek*bazı ipuçları elde edilmesi mümkün olsa bile aramanızla eşleşen gerçek bir sonuç çıkmasından çok dosya adına göre sonuçlar görüntüleniyordu... Bugün ise bu sistem değişti. Artık Adobe PDF formatında kaydedilmiş her türlü belge üzerinde OCR taraması yapabiliyoruz. Bu teknoloji binlerce
kelimeden oluşan bir resmi gerçekten aranabilen ve endekslenebilen binlerce
kelimeye dönüştürebiliyor. Böylece değerli dokümanların bulunması daha kolaylaşıyor. Bu beceri dünyadaki tüm bilgiyi ulaşılabilir ve kullanılabilir kılma misyonumuz için küçük ama çok önemli bir adım." yorumunu yapıyor.
Yeni teknoloji sayesinde devlet raporlarından akademik belgelere kadar birçok önemli bilgi gün ışığına çıkacak.
[Sadece Üyelere Linkler Açıktır.Üye Olun !!!
Tıklayarak Üye Olun !!!]