Günümüz bilgi ve teknoloji çağında arama motorları hayatımızın önemli bir parçası haline gelmiştir. Her ne kadar bilgiye erişimde ilk başvurulan arama motorları olsa da kullanıcılara sunulan içerikte eski ve gereksiz bilgiler yer almaktadır. Güncel verileri sağlamak açısından günümüzdeki arama motorları çoğunlukla istenen başarıyı sunamamaktadır. Web tarayıcılarının sunduğu verilerin güncelliğini sağlamak için tekrar ziyaret zamanının doğru tahmin edilmesi gerekmektedir. Bu çalışmada arama motorlarının performanslarını etkileyen en önemli özellik olan tekrar ziyaret zamanlarının belirlenmesi için üstel hareketli ortalamaya dayanan EMACrawler önerilmiştir. Önerilen yöntem kesinlik, toplam kapsama alanı ve verimlilik metrikleri kullanılarak test edilmiştir. EMACrawler’ın web sayfalarındaki güncel veriyi doğru tahmin zamanında ve hızlı bir şekilde elde ettiği görülmüştür. Yapılan deneysel çalışmaların sonucunda EMACrawler’ın güncel verilerin elde edilmesi ve tarayıcı veri tabanının tazeliğinin korunmasında diğer yöntemlerden daha başarılı olduğu görülmüştür.
Web tarayıcısı güncelleme modülü veri toplama veri indeksleme
Türkiye Bilimsel ve Teknolojik Araştırma Kurumu (TÜBİTAK)
118C127
Bu çalışma, TÜBİTAK tarafından BİDEB-2244 Sanayi Doktora Programı kapsamında 118C127 numara ile desteklenen "İnternette Heterojen Veri Kaynaklarından Veri Toplanması, Doğrulanması ve Sorgulanması" başlıklı projenin bir parçasıdır. Sağladığı destek için TÜBİTAK’a teşekkür ederiz.
In today's information and technology age, search engines have become an important part of our lives. Although search engines are the first to be used to access information, old and unnecessary information is included in the content offered to users. In terms of providing up-to-date data, today's search engines often cannot offer the desired success. In order to keep the data presented by web browsers up-to-date, the time of return visits must be accurately estimated. In this study, EMACrawler based on exponential moving average is proposed to determine the revisit times, which is the most important feature that affects the performance of search engines. The proposed method is tested using precision, total coverage and efficiency metrics. It has been seen that EMACrawler obtains the current data on the web pages in an accurate and quick manner. As a result of the experimental studies, it has been seen that EMACrawler is more successful than other methods in obtaining up-to-date data and maintaining the freshness of the browser database.
118C127
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Araştırma Makalesi |
Yazarlar | |
Proje Numarası | 118C127 |
Erken Görünüm Tarihi | 12 Mart 2024 |
Yayımlanma Tarihi | |
Gönderilme Tarihi | 21 Ağustos 2023 |
Yayımlandığı Sayı | Yıl 2024 ERKEN GÖRÜNÜM |
Bu eser Creative Commons Atıf-AynıLisanslaPaylaş 4.0 Uluslararası ile lisanslanmıştır.