پایگاه خبری بادیجی | اخبار فناوری اطلاعات و ارتباطات

گزارش عملکرد ایرانسل در سال 1400 منتشر شد: ثبت درآمد عملیاتی 22 هزار میلیارد تومانی در یک سال

نوآم چامسکی: ChatGPT نمونه‌ای شگفت‌انگیز از یادگیری ماشینی اما مصداقی از ابتذال شر است

مدیرعامل بقراط: توسعه زیرساخت اینترنت، ضرورت توسعه سلامت دیجیتال است

سامسونگ احتمالاً برای گوشی‌های گلکسی و لپ‌تاپ‌های گلکسی بوک هسته CPU اختصاصی می‌سازد

وزارت رفاه: اجرای طرح کالابرگ الکترونیک در سراسر کشور آغاز شد

افزایش فعالیت سامسونگ در حوزه گجت‌های پوشیدنی: ثبت‌نام‌های تجاری «گلکسی گلس» و «گلکسی رینگ»

هجوم کتاب‌های نوشته‌شده با ChatGPT به فروشگاه آمازون؛ نویسندگان نگران هوش مصنوعی هستند

وزیر ارتباطات: از ممنوعیت واردات آیفون استقبال نمی‌کنیم، اما باید به‌سمت گوشی‌های تولید داخل برویم

OpenAI با پلتفرم Foundry منابع اختصاصی برای اجرای مدل‌های هوش مصنوعی را فراهم می‌کند

صرافی والکس چطور امنیت کاربران خود را تامین می‌کند؟

در پنل موبایل و صنعت VOD مطرح شد: صداوسیما طبق قانون اساسی حق تنظیم‌گری ندارد

رقیب چینی ChatGPT از راه رسید؛ شروع آزمایش عمومی چت‌بات MOSS

ثبت‌نام در دوازدهمین دوره نمایشگاه اینوتکس آغاز شد / فرصتی برای هم‌افزایی اکوسیستم استارتاپی در شرایط محدودیت‌های اینترنتی

گوگل رسماً از رقیب ChatGPT رونمایی کرد: Bard از راه رسید

پنتاگون درباره استفاده فزاینده از هوش مصنوعی در جنگ‌افزارهای آینده هشدار داد

معرفی ایران به عنوان دومین کشور دارای بیشترین محدودیت اینترنت

سریع‌ترین قطار سوخت هیدروژنی جهان با سرعت 160 کیلومتر بر ساعت در چین شروع به کار کرد

پنج پیش‌بینی در مورد بانکداری و فین‌تک برای سال 2023 به قلم ران شولین

پرجزئیات‌ترین تصاویر ماه از روی زمین با راداری ضعیف‌تر از یک مایکروویو ثبت شد

مایکروسافت می‌خواهد فناوری هوش مصنوعی OpenAI را به آفیس اضافه کند

سامسونگ نگران کاهش تقاضای جهانی برای محصولات خود است

انجمن تجارت الکترونیک با ارائه اینترنت طبقاتی مخالفت کرد

تأمین مالی فیلیمو از بورس، بدون حضور در تابلوی بورسی / دستی بر آتش بورس، اما با فاصله و بدون استرس

ماجرای پول نقد ندادن دستگاه‌های خودپرداز چیست؟ / مقاومت بانک‌ها یا بالارفتن تقاضا برای پول نقد؟

عصر تراکنش به پله شصت‌وپنجم رسید / بدون نوآوری واقعی محکوم به شکستیم

اپل واچ می‌تواند سطح استرس را به‌طور دقیق اندازه‌گیری کند

گردشی در استارتاپ دکتر دکتر: مطبی به وسعت اینترنت

فردابانک؛ یک نئوبانک غیربانکی

قابلیت ‏های اینترنت اشیا و کلان‏ داده برای کشف تقلب و کلاهبرداری در بانکداری دیجیتال

در مراسم رونمایی از سالنامه مهاجرت مطرح شد: نیمی از مدیران میانی در مسیر مهاجرت هستند

مینگ-چی کو: اپل آیفون SE 4 را تولید نمی‌کند یا آن را تا 2024 به تعویق می‌اندازد

جورج هاتز، هکر مشهور آیفون پس از حدود پنج هفته از سمت خود در توییتر استعفا کرد

۱۱۴ شعبه اچ‌اس‌بی‌سی در بریتانیا تعطیل می‌شود / آیا مردم بانکداری آنلاین را بیشتر دوست دارند؟

بررسی کیف‌ پول سخت‌افزاری؛ ابزار نگهداری ارزهای دیجیتال

تسلا سرویس گیمینگ استیم را برای خودروهای جدید مدل X و S منتشر کرد

واکنش وزیر ارتباطات به افزایش قیمت قبوض تلفن ثابت: مخابرات برای نوسازی و توسعه نیاز به منابع دارد

احتمال خروج رایتل از بازار / از دست رفتن بیش از ۳۰۰ میلیارد ریال از درآمد اپراتور سوم کشور

دیپ‌مایند هوش مصنوعی Dramatron را معرفی کرد؛ ابزاری برای نوشتن فیلمنامه

اپل و اریکسون بر سر پتنت‌های شبکه‌های سلولی به توافق رسیدند

مرکز توسعه تجارت الکترونیکی: مهمتر از اینماد، توجه به رتبه اعتماد کسب و کارها است

حمایت استارتاپ‌ها از کسب‌وکارهای کوچک و خانگی به یاد کیان پیرفلک: «قایقی باید ساخت»

نمایشگاه تلکام از تقویم نمایشگاهی حذف شد

اپل احتمالاً مشغول توسعه متاورس مخصوص به خودش است

رکورد ترافیک داخلی با شش ترابیت بر ثانیه شکسته شد/ کاربران فعال پلتفرم‌های داخلی افزایش یافت

انتقاد نمایندگان مجلس از افزایش هزینه آبونمان قبوض تلفن ثابت / رئیس مجلس دستور پیگیری داد

افشای مشخصات کامل شیائومی 13 و 13 پرو پیش از معرفی رسمی

آیفون 15 پرو احتمالاً از USB-C با تاندربولت 3 پشتیبانی خواهد کرد

دامنه ابر آروان از دسترس خارج شد

شورای عالی فضای مجازی خبر داد / حضور ۶۰درصدی کسب‌و‌کارها در پلتفرم‌های داخلی

درخواست فوری کارگروه اقتصاد دیجیتال در هیات دولت از شاپرک: دستور الزام ای‌نماد را لغو کنید

عضو کمیسیون اینترنت نصر تهران / مردم با دستور به پیام‌رسان داخلی کوچ نمی‌کنند

گفت‌و‌گو با آزاد معروفی، مدیرعامل لاوان‌ارتباط / به حال اقتصاد دیجیتال باید گریست

انتقاد معاون فناوری اطلاعات شرکت مخابرات از پروژه پوشش ۲۰ میلیون فیبر نوری وزارت ارتباطات / وزیر وعده غیرممکن داده است + به‌روزرسانی

افزایش سقف تراکنش درگاه‌های پرداخت اینترنتی و کارت‌خوان‌های تاپ به ۱۰۰ میلیون تومان

نماینده مجلس مدعی شد: پهنای باند روبیکا سه برابر استارلینک خواهد شد

عضو کمیسیون اقتصادی مجلس: قطع اینترنت جواب نمی‌دهد و فقط به تعداد بیکاران افزوده است

همکاری جدید اپل‌پی با شرکت گلدمن‌ساکس / اپل روزبه‌روز بیشتر شبیه یک بانک می‌شود

سامسونگ از سریع‌ترین DRAM LPDDR5X دنیا با سرعت 8.5 گیگابیت بر ثانیه رونمایی کرد

کارزار تبلیغاتی متا علیه iMessage اپل؛ مارک زاکربرگ: واتس‌اپ خیلی بهتر و ایمن‌تر است

وزیر ارتباطات: خسارت کسب‌وکارهای مجازی برعهده کسانی است که اغتشاش و آشوب به وجود آورده‌اند

گوشی اقتصادی آنر پلی 6C با نمایشگر 90 هرتزی و اسنپدراگون 480 معرفی شد

کوالکام احتمالا تامین‌کننده مودم 5G سری آیفون 15 و آیفون 16 باقی می‌ماند

ملی‌شدن اینترنت چه تأثیری بر شبکه پرداخت کشور دارد؟

عضو کمیته فیلترینگ: با پذیرش قوانین جمهوری اسلامی ایران فعالیت اینستاگرام و واتس‌اپ منعی ندارد

گزارش «راه پرداخت» از وضعیت کسب‌وکارهای فعال در اینستاگرام / ناامیدی و آینده نامعلوم؛ دغدغه امروز فعالان کسب‌وکارهای خرد

آیفون 14 پرو در بررسی DxOMark بالاترین امتیاز دوربین سلفی و فیلمبرداری را کسب کرد

هوش مصنوعی یک مسئله کوانتومی 100 هزار معادله‌‎ای را در 4 معادله خلاصه کرد

ریال یا ارز دیجیتال بانک مرکزی ایران، جهش ژنتیکی پرداخت ایران است

سامانه مدیریت هوشمند ناوگان ایرانسل، راهی برای نظارت بر ناوگان‌های پیچیده

شماره ۶۶ هفته‌نامه کارنگ و رمزارز شماره ۳۶ منتشر شد

رد توسعه‌دهندگان را چطور بزنیم؟

خدمات پیامک انبوه جیرینگ چه مزایایی برای مشتریان دارد؟

اپل ظاهرا در لحظه آخر تصمیم به استفاده از «جزیره پویا» در آیفون 14 پرو گرفته است

استفاده از API چه مزایایی برای شرکت‌های فین‌تک دارد؟

بنچمارک آنتوتو از افزایش 28 درصدی عملکرد گرافیکی تراشه A16 Bionic حکایت دارد

اینستاگرام ابزار جدید «Gifts» را برای کسب درآمد اینفلوئنسرها آزمایش می‌کند

طرح‌های مفهومی آیپد پرو با طراحی «جزیره پویا» آیفون 14 پرو را ببینید

بازگشت آنی وجه به حساب مشتری با سرویس استرداد وجه زیبال

چرا اپل از تولید آیفون 14 مینی منصرف شد؟

مدیر حوزه‌های علمیه: در تدوین سندهای راهبردی با موضوع هوش مصنوعی باید حضوری موثر داشته باشیم

هوش مصنوعی DALL-E حالا می‌تواند تصاویر را فراتر از کادر آن‌ها گسترش دهد [تماشا کنید]

خدمات فناورانه به زوار اربعین اعلام شد / وای‌فای رایگان در ۲۰ نقطه از مسیر نجف تا کربلا

جیرینگ در پنج عنوان شغلی استخدام می‌کند

افشای جزئیات جدیدی از سری آیفون 14؛ تراشه، رنگ‌بندی، رم و سرعت شارژ

اپل در تولید اولیه سری آیفون 14، روی مدل‌های پرو تمرکز کرده است

مجمع عمومی سالیانه رایتل برگزار شد؛ تداوم روند سودآوری

مدیر تیم بلاکچین نوبیتکس در رویداد CWS مکانیزم نگهداری دارایی کاربران این صرافی را تشریح کرد

دیوار: با سیستم تایید هویت در عرض ۶ ماه، آمار کاربران کلاهبردار را به طرز چشمگیری کاهش خواهیم داد

ساترا: تولیدات ویدیویی در فضای مجازی باید متناسب با فرهنگ اسلامی و قابل پخش در انواع رسانه‌ها باشد

سامسونگ ظاهرا روی نسل بعدی تراشه‌های تنسور گوگل کار می‌کند

مدیرعامل لندو از چشم‌انداز این شرکت در ارائه وام‌های خرد آنلاین می‌گوید / هدف؛ اولین‌شدن

لزوم رعایت نکات امنیتی در استفاده از خدمات بانکداری الکترونیک

سوپر اپلیکیشن ایرانسل من، پلی‌استیشن ۵ جایزه می‌دهد

بلومبرگ: اپل از سال آینده میلادی شروع به نمایش تبلیغات در اپ مپس می‌کند

تفاهم‌نامه‌ ایرانسل و اتحادیه تاکسیرانی‌های شهری کشور با تمرکز بر سیستم ارتباطی بی‌سیم تاکسی

اپلیکیشن‌های شیپور، شیپور پلاس و آلونک از گوگل‌پلی حذف شدند

اپل ظاهرا تولید نسل دهم آیپد را با تغییرات عمده در طراحی شروع کرده است

گزارش سالانه تریبون: رمزارز بیشترین تبلیغات در رسانه‌ها را به خود اختصاص داد

دانشمندان چینی رکورد قوی‌ترین میدان مغناطیسی یکنواخت جهان را شکستند

فناوری‌ها و پیشرفت‌های مهم شکل‌دهنده آینده فین‌تک

پروژکتور شیائومی می 2S با امکان نمایش تصویر 120 اینچی معرفی شد

مرحله جدید رگولاتوری سلامت دیجیتال: دانشگاه علوم پزشکی از استارتاپ هومکا شکایت کرد

مهندس سابق گوگل: هوش مصنوعی لمدا سوگیری‌های نژادی و مذهبی دارد

شماره شصتم هفته‌نامه کارنگ به همراه دو ضمیمه منتشر شد

طرح قانون یکپارچه‌سازی داده‌ها و اطلاعات ملی اصلاح شد / مرکز ملی تبادل اطلاعات وزارت ارتباطات عهده‌دار تبادل اطلاعات شد

این ابزار هوش مصنوعی رایگان عکس‌های قدیمی را احیا می‌کند

رونمایی از پلتفرم مارکت پلیس آرتانیوم؛ همراهی هنر و تکنولوژی در حوزه NFT

امکان دریافت درگاه پرداخت اینترنتی تجارت الکترونیک پارسیان همزمان با اینماد

مارک زاکربرگ: متا و اپل در یک رقابت عمیق فلسفی برای ساخت متاورس قرار دارند

آی‌تی‌ساز در نمایشگاه بورس،بانک و بیمه از محصولات جدید خود رونمایی می‌کند / از همکاری با بانک مسکن تا ایجاد نئوبانک

نگاهی به بیشترین عبارات جستجو شده در گوگل طی تیر ماه: کاربران به دنبال لغو محدودیت Safe Search

کالبدشکافی مک بوک ایر جدید، تراشه قدرتمند M2 را به تصویر می‌کشد

سامسونگ با انتشار یک پازل، تاریخ رویداد آنپکد بعدی خود را اعلام کرد

پیشنهاد سرمایه‌گذاری ۲۷ میلیارد تومانی در آی‌تی هاب

نگاهی به برترین پلتفرم‌های آموزش آنلاین کشور

در مسیر اینترنت کوانتومی؛ درهم‌تنیدگی دو اتم در فاصله 33 کیلومتری رکوردشکنی کرد

همین حالا مرورگر کروم خود را آپدیت کنید تا از یک آسیب‌‌‌‌پذیری خطرناک در امان بمانید

دیجی‌پی و بانک ملت برای ارائه اعتبار خرید اقساطی تفاهم‎نامه همکاری امضا کردند / اعطای تسهیلات خرد تا سقف ۳۰ میلیون تومان برای خرید اقساطی از دیجی‌کالا

مینگ-چی کو شایعات را رد کرد: اپل سفارشات تولید آیفون 14 را کاهش نمی‌دهد

پردازشگر گرافیکی Immortalis معرفی شد؛ اولین GPU آرم با رهگیری پرتو سخت‌افزاری

مدیر اپل سامسونگ را به کپی‌کاری متهم کرد: گلکسی‌ها همان آیفون با نمایشگر بزرگتر بودند

ضعف امنیت سایت‌های بانک‌های ایرانی عامل قطع دسترسی از خارج

اعلام شرایط ثبت گوشی تلفن همراه در فرودگاه امام خمینی

گزارش عملکرد سالانه نصر کشور: از رشد 66درصدی درآمد عملیاتی تا افزایش 6 درصدی اعضا

iOS 16 و مک او اس ونتورا برخی کپچاها را به‌طور خودکار رد می‌کنند

قطعی کلاودفلر بسیاری از سرویس‌های محبوب اینترنتی را از دسترس خارج کرد

سامسونگ احتمالا به‌زودی گوشی‌های اقتصادی گلکسی A04 و A04s را معرفی می‌کند

اولین پهپاد دنیا با قابلیت پرتاب از زیردریایی معرفی شد [تماشا کنید]

اعلام بخشی از مشخصات پوکو F4 5G: اسنپدراگون 870 و سیستم خنک‌کننده پیشرفته

اپل برای تسخیر صنعت خودروسازی در تلاش است

سامانه دفاعی چین ظاهرا می‌تواند مسیر موشک‌های هایپرسونیک را پیش‌بینی کند

با «ویپاد» آنلاین در بانک پاسارگاد، افتتاح حساب کنید و کارت بگیرید

مشخصات کامل گلکسی زد فلیپ 4 سامسونگ افشا شد

مشخصات کامل گوشی تاشو گلکسی زد فولد 4 افشا شد

احتمال معرفی هدست اپل در WWDC 2022 با ثبت علامت تجاری RealityOS

تلاش‌ها برای ممنوعیت واردات آیفون منجر به افزایش دو برابری واردات مسافری شد

سونی احتمالا از سال 2025 عرضه بازی‌های جدید برای پلی‌استیشن 4 را متوقف می‌کند

سامسونگ عملکرد سنسور دوربین 200 مگاپیکسلی خود را به رخ رقبا کشید [تماشا کنید]

سرویس Starlink for RVs معرفی شد؛ دسترسی به اینترنت در سفر با هزینه 135 دلار

مجله تایم فهرست 100 فرد تاثیرگذار سال 2022 را منتشر کرد

نحوه دریافت بیمه اقساطی در ازکی‌وام با سفته آنلاین چگونه است؟

ربات آلفا در غرفه انتشارات گرایش تازه در نمایشگاه کتاب چه می‌کند؟ / غرفه‌داری با هوش مصنوعی

آپدیت iOS 15.5 و iPadOS 15.5 منتشر شد؛ بررسی تغییرات

استقبال کاربران از اپلیکیشن پاس در نمایشگاه کتاب

نسخه 2022 تبلت گلکسی تب S6 لایت سامسونگ در سکوت خبری معرفی شد

هوش مصنوعی از صدا برای تشخیص افسردگی و اضطراب استفاده می‌کند

گزارش سالانه آی تی بازار از تحولات سال 1400

شکایت 1.28 میلیون دلاری روسیه از اپل به دلیل تعلیق خدمات Apple Pay

گام نهایی گرانی اینترنت کلید خورد / اینترنت سیم‌کارت چقدر گران می‌شود؟

پوکو F4 GT با اسنپدراگون 8 نسل یک و فناوری شارژ فوق سریع 120 واتی معرفی شد

سال 1401؛ زمان کلیدی برای توسعه زیرساخت‌های فناوری اطلاعات

گفت‌و‌گویی صریح و بی‌پرده با پویا پیرحسینلو، هم‌بنیان‌گذار و مدیرعامل ابرآروان / چرا سیبل شدیم؟

میرسلیم: افزایش غیرمنطقی قیمت اینترنت در مجلس پیگیری می‌شود

انجام فرآیندهای مربوط به چک‌های جدید از طریق پیامک

صنعت بیمه به دی‌ان‌ای نوآوری خاص خودش نیاز دارد / آفت کپی‌برداری از موفقیت دیگران

اندروید 13 زمان بارگذاری بازی‌ها را تا حد زیادی کاهش می‌دهد

ثبت نام و پرداخت آزمون‌های خارجی در سایت اول‌پرداخت

ببینید| پرداخت با رمز ارز‌ها خط قرمز قوانین پولی و بانکی کشور است

دیجی‌کالا پلتفرم محتوایی «مگنت» را معرفی کرد

سامسونگ احتمالا بتای عمومی اندروید 13 و One UI 5.0 را اواسط تابستان منتشر می‌کند

مکالمه نامحدود با 5 مشترک در طرح رمضان همراه اول

هدایای ایرانسل برای ماه رمضان اعلام شد

نگاهی به گزارش عملکرد سالانه آی‌قصه؛ بیش از 150 نیروی انسانی در خدمت قصه‌گویی برای بچه‌ها

عملکرد ضعیف نمایشگر گلکسی S22 در تست سقوط [تماشا کنید]

آرپا؛ رسانه پرداخت الکترونیک ایران راه‌اندازی شد

سامانه هوشمند رسیدگی به شکایات از کسب‌وکارهای اینترنتی رونمایی شد / امکان داوری جمعی برخط به وقوع پیوست

مدیرعامل مخابرات افزایش حق‌السهم اپراتورها به دولت را خطایی راهبردی عنوان کرد

Airbnb تمامی فعالیت‌های خود را در روسیه و بلاروس به حالت تعلیق درآورد

رگولاتوری: درآمد اپراتورهای همراه ۵۰ هزار میلیارد تومان نیست

تأکید دولت بر ارائه اینترنت با کیفیت و پرسرعت به مردم / افزایش ۳۰۰ گیگابایت پهنای باند به ظرفیت شرکت مخابرات

مذاکرات و رایزنی‌های ۱۰۰ سرمایه‌گذار خارجی با شرکت‌های دانش بنیان‌ ایرانی

اپلیکیشن شبکه اجتماعی Truth Social ترامپ در اپ استور منتشر شد

نتیجه یک مطالعه: اپل واچ افراد را تا 35 درصد فعال‌تر کرده است

ورود اولین مجموعه استارت‌آپی به بورس در چه مرحله‌ای است: آیا تپسی تا سه ماه دیگر عرضه اولیه خواهد شد؟

قدردانی سخنگوی دولت از همراه اول برای توسعه پلتفرم‌های دیجیتال

موج جدید هک عمومی با استفاده از شبکه وای‌فای هتل‌ها

رابط کاربری اسکایپ با حذف Hightlights ساده شد

هواوی از سه تبلت جدید در نمایشگاه MWC 2018 رونمایی خواهد کرد

رجیستری ۱۴ هزار گوشی را غیر فعال کرد | گوشیهای دست دوم هم رجیستر می‌شوند

0

کشف بهترین الگوریتم جریان داده‌ها برای دیتابیس‌های بزرگ

بازدید 359

محققان علوم کامپیوتر موفق شده‌اند بهترین الگوریتم جریان داده ها را برای دیتابیس‌های بزرگ طراحی کنند. در این نسخه بسیاری از نقص‌های الگوریتم‌های پیشین برطرف شده است و محققان بر این باورند این الگوریتم بهترین موردی است که تا به حال در علوم کامپیوتر طراحی شده است.

به گزارش بادیجی ، اندازه گیری جریان آب خروجی از شلنگ آتش نشانی، زمانی که مستقیم صورت شما را نشانه گرفته است کار ساده‌ای نیست. تحلیل جریان‌های داده نیز به همین صورت است، جریانی که مثل سیل به سمت ما سرازیر می‌شود و هیچوقت تمامی ندارد. زمانی که در توییتر هستید و توییت‌ها را نگاه می‌کنید، با حجم عظیم توییت‌ها روبرو می‌شوید و باید چند لحظه‌ای مکث کنید تا بفهمید توییت‌ها درباره چه چیزی است. با قرار گرفتن در مقابل سیلی از توییت‌ها، سر در آوردن از موضوع آنها کار ساده‌ای نیست، ازینرو باید از هشتگ استفاده کنید تا موضوع مورد نظر خود را پیدا کنید. الگوریتم جریان داده ها بدین منظور طراحی شده است.

برنامه‌های کامپیوتری انجام دهنده‌ی این محاسبات را «الگوریتم‌های جریان» (streaming algorithms) می‌نامند. از آنجایی که دادها در چنین حجم بزرگی به سمت این نرم‌افزارها سرازیر می‌شوند، این ماشین‌ها سعی میکنند عصاره‌ای از این چیزی که می‌بینند را ثبت کنند و اصولا از نظر تکنیکی مابقی را فراموش می‌کنند. بیشتر از ۳۰ سال است که دانشمندان علوم کامپیوتر در تلاش برای ساخت یک الگوریتم جریان بهتر هستند. پاییز گذشته محققان موردی ابداع کردند که تقریبا بی عیب و نقص است.

جلانی نلسون، استاد کامپیوتر دانشگاه هاروارد و نویسنده‌ی کتابی در این رابطه (همراه با کاسپر گرین لارسن از دانشگاه آرهوس در دانمارک و هوی وین از دانشگاه شمال شرقی و میکل تروپاز از دانشگاه کپنهاگن) می‌گوید:«ما الگوریتم جدیدی را توسعه داده‌ایم که تقریبا در نوع خود بهترین است».

این الگوریتم جریان، که در رسته خود بهترین است، بدین شکل کار می‌کند که به اندازه کافی از مواردی که می‌بیند را به خاطر می‌سپارد و در نهایت به شما می‌گوید چه مواردی را بیشتر از بقیه مشاهده کرده است. این مدل دعا می‌کند بکارگیری ترکیباتی که به نظر در تحلبل جریان داده ذاتی به نظر می‌رسد، در حقیقت لازم‌الاجرا نیستند. این مدل همچنین افق جدیدی را به سمت عصر فراموش کردن استراتژیک (Strategic forgetting) نشان می‌دهد.
مشخص کردن ترند

در دیتابیس‌هایی که بطور مداوم در حال به روز رسانی هستند و شما نظاره‌گر آن هستید، الگوریتم جریان داده ها بسیار مفید عمل می‌کنند. برای مثال می‌توانیم به AT&T اشاره کنیم که بطور مکرر تب‌ها را بر بسته‌های داده حفظ می‌کند یا گوگل که همیشه در حال دسته‌بندی کردن جریان مدخل‌های بی پایان ورودی جستجو است. در این جورمواقع، داشتن متدی برای پاسخ‌دهی به سوالات آنی درباره داده، بدون بررسی مجدد و حتی بدون نیاز به یادآوری آن داده‌ها، کاری مفید و حتی ضروری است.

یک مثال ساده: فرض کنید جریان مداومی از اعداد در اختیار دارید و می‌خواهید جمع تمامی ارقامی که تا بحال مشاده کرده‌اید را حساب کنید. در این مورد روشن است که به جای به خاطر آوردن تمامی اعداد، تنها نیاز است یک رقم را به خاطر بیاورد: جمع تجمعی (running sum).

این چالش زمانی سخت‌تر می‌شود که سوالات پرسیده شده‌ی شما درباره داده پیچیده‌تر شود. فرض کنید به جای محاسبه کردن جمع ارقام، تمایل دارید که امکان پاسخ به سوال مقابل را داشته باشید: چه ارقامی بیشتر تکرار شدند؟ چندان مشخص نیست که شما می‌خواهید با استفاده از چه میانبری در لحظه به جواب دست پیدا کنید.

این پازل بخصوص به عنوان معضل «آیتم‌های تکرار شونده» یا «مشت‌زنان سنگین‌وزن» شناخته می‌شود. اولین الگوریتم ایجاد شده برای حل این معضل موردی بود که در دهه ۸۰ توسط دیوید گریس از دانشگاه کرنا و جایتدو میسرا از دانشگاه تگزاس ابداع شد. برنامه آنها از جهاتی موثر عمل کرد، اما نتوانست چیزی که آن را «تشخیص تغییر» می‌نامند را حل کند. این الگوریتم، واژه‌هایی که بیشتر از همه جستجو شده بودند را به شما می‌گفت، اما نمی‌توانست تشخیص دهد چه واژه‌هایی در حال ترند شدن هستند. در قضیه گوگل، این الگوریم «ویکی پدیا» را به عنوان محبوب‌ترین واژه جستجو شده شناسایی می‌کرد، اما نمی‌توانست خیزش واژه‌های جستجو شده در مواقع خاص، همچون واژه‌هایی که به همراه اخبار طوفان ایرما توییت می‌شدند، را شناسایی کند.

این یک مشکل در برنامه‌نویسی است. شما سعی می‌کنید اطلاعات را تا سطحی خلاصه و اطلاعاتی را استخراج کنید که به شما در شناسایی اولین واژه‌های جستجو شده کمک کند. این را گراهام کومود، یکی از محققان علوم کامپیوتر در دانشگاه وارویک توضیح داد.

طی ۳۰ سال پس از طراحی این الگوریتم، کورمود و دیگر دانشمندان کامپیوتر، الگوریتم گریس و میسرا را توسعه دادند. بعضی از الگوریتم‌های جدید قادر به شناسایی واژه‌های ترند شده بودند، در حالی که بعضی دیگر از الگوریتم‌ها را طوری طراحی شده بودند که بفهمند کلمه پر تکرار چه مشخصه‌هایی دارد. تمامی این الگوریتم‌ها کامل و مکمل همدیگر بودند، به عنوان مثال سرعت قربانی دقت و مصرف حافظه قربانی معتبر بودن آن می‌شد.

بیشتر این تلاشها بر یک زمینه متکی بود. برای مثال، فرض کنید می‌خواهید واژه های پر تکرار را شناسایی کنید. یکی از راههای انجام این مهم، اختصاص دادن شماره به تمام واژه‌های زبان انگلیسی و سپس جفت کردن آن شماره با یک شماره ثانوی است که دفعاد تکرار یک کلمه جستجو شده در طول فرآیند را ثبت می‌کند. شاید کلمه aardvark به عنوان کلمه شماره ۱۷ ثبت و در دیتابیس شما به شکل (۱۷، ۹) نشان داده شود. به این معنی که کلمه شماره ۱۷ ، ۹ بار جستجو شده است. این رویکرد به سادگی تمام کلمات پر جستجو را برای شما نشان می‌دهد، بطوری که در لحظه، از تعداد دفعاتی که یک کلمه بیشتر تکرار شده است باخبر می‌شوید.

اما با وجود این، باز هم نقاط ضعفی وجود دارد. برای مثال، زمان زیادی طول می‌کشد تا این الگوریتم در میان صدها هزار واژه در زبان انگلیسی به جستجو بپردازد.

اما چه اتفاقی می‌افتد اگر تنها صد کلمه در دیکشنری داشته باشیم؟ نلسون می‌گوید :«گشتن در میان لغات این دیکشنری زمان چندانی نمی‌خواهد».

ازینرو، تعداد کلمات موجود در دیکشنری همانی هستند که وجود دارند. مگر اینکه، همانطور که نویسندگان الگوریتم جدید کشف کرده‌اند، شما دیکشنری بزرگ را به دیکشنزی‌های کوچکتری تقسیم کنید و راه خلاقانه‌ای برای سر هم کردن دوباره آنها پیدا کنید.
داده‌های کوچک

ثبت و ردیابی اعداد کوچکتر، به نسبت اعدا بزرگتر، کار ساده‌تری است.

برای‌مثال، فرض کنید در حال بررسی جریانی از اعداد مابین صفر و ۵۰,۰۰۰,۰۰۰ هستید (کاری مشابه با پیدا کردن کاربران اینترنت از طریق آدرس IP). شما می‌توانید با استفاده از یک مدخل ۵۰,۰۰۰,۰۰۰ واژه‌ای، به ردیابی اعداد مشغول شوید، اما کار کردن با مدخلی به چنین بزرگی کار ساده ای نیست. راه بهتر این است که به هر عدد هشت رقمی به عنوان چهار مدخل دو رقمی فکر کنیم که به هم متصل هستند.

بر فرض شما شماره ۱۲,۳۴۵,۶۷۸ را می بینید. یک شیوه موثر برای بخاطر آوردن این شماره تقسیم کردن آن به چهار بلوک دو رقمی است: ۱۲, ۳۴, ۵۶, ۷۸٫ سپس می‌توانید هر بلوک را به یک الگوریتم تابع ارسال کنید که فرکانس آیتم‌ها را محاسبه می‌کند: ۱۲ یک الگوریتم را کپی می کند، ۳۴ دو الگوریتم را کپی می‌کند، ۵۶ سه الگوریتم را کپی می‌کند و ۷۸ چهار الگوریتم.

هر الگوریتم تابع، مدخل خود از چیزی که دیده است را حفظ می‌کند، اما از آنجایی که هر نسخه هیچوقت چیزی بیشتر از یک عدد دو رقمی را نمی‌بیند، هر مدخل تنها مابین عددهای صفر تا ۹۹ در نوسان هستند.

یک ویژگی مهم از تقسیم کردن اعداد بزرگ این است که، اگر این عدد بزرگ، ۱۲۳۴۵۷۸، در جریان کلی داده‌ی شما بطور مکرر ظاهر شود، اجزای دو رقمی آن نیز ظاهر می‌شوند. زمانی که شما از هر الگوریتم تابع می‌خواهید که ارقامی که بیشتر دیده اند را شناسایی کنند، کپی اول ۱۲ را به ما می‌دهد، کپی دوم ۳۴ را به ما می‌دهد و به همین ترتیب. شما قادر خواهید بود بیشترین اعداد تکرار شده در هر گروه را تنها با نگاه کردن به آیتم‌های تکرار شده در هر لیست پیدا کنید.

نلسون می‌گوید :«به جای صرف کردن ۵۰ میلیون واحد زمانی برای چرخش دور کل کهکشان، شما تنها از چهار الگوریتم برخوردارید که ۱۰۰ واحد از زمان را صرف می‌کنند».

مشکل اصلی استراتژی تقسیم کردن این است که، با وجود ساده بودن قطعه کردن اعداد بزرگ به اعداد کوچک، سر هم کردن دوباره آن به یک عدد بزرگ کار ساده‌ای نیست. نمی‌توان با در کنار هم قرار دادن این اعداد کوچک عدد بزرگ را به دست آورد.

برای مثال، فرض کنید جریان داده شما بطور مکرر شامل اعدادی می‌شود که در میان آنها عدد مشترک وجود دارد: ۱۲۳۴۵۶۷۸ و ۱۲۹۹۹۹۹۹٫ هر دو با ۱۲ شروع می‌شوند. الگوریتم شما هر عدد را به چهار عدد کوچکتر تبدیل می ، سپس هر کدام را به یک الگوریتم تابع ارسال می‌کند. سپس، شما از هر الگوریتم تابع درخواست می کنید که :«چه اعدادی را دیده‌اید که بیشتر تکرار شده‌اند؟». کپی اول می‌گوید :«تعداد زیادی از ۱۲ دیده‌ام». الگوریتمی که تلاش می‌کند بفهمد کدام اعداد هشت رقمی دیده شده، بیشتر تکرار شده اند، نمی تواند بگوید آیا تمامی این ۱۲ ها به یک گروه هشت رقمی مربوط است و یا متعلق به دو گروه متفاوت است.

نلسون می‌گوید: «چالش، فهمیدن این مورد است که کدام بلوک دو رقمی باید بر کدام بلوک دو رقمی دیگر متمرکز شود».

این نویسندگان نیویورکی، چالش را بدین طریق حل کردند: آنها هر بلوک دو عددی را با یک تگ کوچک اسم‌گذاری کردند. این تگ حافظه‌ی چندانی به خود اختصاص نمی‌دهد اما به الگوریتم اجازه می‌دهد که قطعات دو عددی را به شیوه ی صحیح کنار هم بچیند

برای مشاهده کردن رویکرد ساده‌ای از شیوه ی تگ گذاری، با عدد ۱۲۳۴۵۶۷۸ شروع و آن را به بلوک‌های دو رقمی تقسیم کنید. قبل از اینکه هر بلوک را به الگوریتم تابع مرتبط‌اش ارسال کنید، بلوک را با یک جفت عدد شناسایی منحصربفرد، که می توان از آن برای جمع کردن ارقام در کنار هم استفاده کرد، بسته بندی کنید. اولین تگ به عنوان نام بلوک عمل می‌کند و دومی به عنوان یک لینک. به این شیوه، ۱۲۳۴۵۶۷۸ به مورد زیر تبدیل می شود:

۱۲, ۰, ۱ / ۳۴, ۱, ۲ / ۵۶, ۲, ۳ / ۷۸, ۳, ۴

اینجا عدد ۱۲ اسم ۰ را بر خورد دارد و به عددی با اسم ۱ لینک می شود. عدد ۳۴ اسم ۱ را بر خورد دارد و به عددی با اسم ۲ متصل می شود. و به همین ترتیب.

اکنون، زمانی که الگوریتم‌های تابع به بلوک‌هایی که بیشترین تکرار را داشته‌اند برمی‌گردند، ۱۲ به دنبال عددی با تگ ۱ می‌گردد و ۳۴ را پیدا می‌کند، سپس ۳۴ به دنبال عددی با تگ ۲ می‌گردد و ۵۶ را پیدا می‌کند، و ۵۶ به دنبال عددی با تگ ۳ می‌گردد و ۷۸ را پیدا می‌کند.

به این شیوه، شما می‌توانید بلوک‌های دو رقمی را به عنوان لینک‌هایی زنجیره‌ای ببینید که در آن، لینک‌ها توسط این اعداد تگ‌گذاری شده اضافی کنار هم جمع می‌شوند.

البته مشکل این زنجیرها این است که قدرتشان به اندازه ضعیف‌ترین لینکشان است. و شکستن این زنجیرها حتمی است.

پایه و اساس

هیچ الگوریتمی در زمان عملکرد بی عیب و نقص نیست. حتی بهترین الگوریتم‌ها نیز بعضی اوقات تیرشان به خطا می‌رود. در مثالی که از آن استفاده کردیم، مورد اشتباهی می‌تواند بلوک دو رقمی ثانوی، ۳۴، باشد که تگ اشتباهی را به آن چسپانده‌اند و به عنوان نتیجه، زمانی که به دنبال بلوکی می‌گردد که باید به آن ملحق شود، اطلاعات مورد نیاز برای پیدا کردن ۵۶ را در اختیار ندارد. و زمانی که این زنجیره لینکی پاره شود، کل تلاش ما بر باد می‌رود.

برای جلوگیری از پیش آمدن این مشکل، محققان از چیزی که آن را «گراف بسط دهنده» (expander graph) می‌نامند استفاده می‌کنند. در یک گراف بسط دهنده، هر بلوک دو رقمی یک نقطه را تشکیل می‌دهد. نقاط توسط خط به هم متصل می‌شوند (بر طبق فرآیند تگ ‌گذاری شرح داده شده در بالا) تا یک خوشه را تشکیل دهند. ویژگی مهم یک گراف بسط دهنده این است که به جای اتصال صرف هر نقطه با بلوک مرتبط با آن، شما هر بلوک دو رقمی را با دیگر بلوک‌های چندگانه متصل می‌کنید. برای مثال، با ۱۲۳۴۵۶۷۸، شما ۱۲ را هم با ۳۴ و هم با ۵۶ متصل می‌کنید، پس می‌توانید بگویید که ۱۲ و ۵۶ به یک شماره تعلق دارند حتی با وجود اینکه لینک مابین ۱۲ و ۳۴ شکست می‌خورد.

یک گراف بسط دهنده همیشه عالی عمل نمی‌کند. بعضی اوقات در لینک کردن دو بلوکی که باید لینک شوند با شکست مواجه می‌شود. یا دو بلوکی را به هم لینک می‌کند که به یکدیگر تعلق ندارند. برای جلوگیری از این رویداد، محققان قدم نهایی الگوریتم خود را توسعه دادند: یک الگوریتم «نگهدارنده خوشه» که می‌تواند یک گراف بسط دهنده را طی کند و بطور دقیق تشخیص دهد کدام نقاط باید با همدیگر خوشه شوند و کدام نقاط نه. حتی با وجود اینکه بعضی از خطوط تشکیل نشده‌اند و خطوط اشتباهی جایگزین آنان شده اند.

ثروپ می‌گوید :«این تضمین می‌دهد من می‌توانم چیزی که شبیه به خوشه‌های اصلی است را بازیابی کنم».

و از آنجایی که توییتر قرار نیست فردا طرح بسط دهنده را اجرایی کند، تکنیک‌های اساس آن به رنج گسترده‌تری از معضلات علوم کامپیوتر بسط پیدا می‌کنند.

این الگوریتم همچنین ثابت می‌کند که مواردی از فداکاریهایی که قبلا به نظر برای پاسخ به آیتم‌های مکرر لازم بودند، اصلا نیازی نیست که انجام یابند.

الگوریتم‌های پیشین همیشه موردی را در نظر نگرفته بودند؛ آنها دقیق بودند اما مثلا قادر نبودند که تشخیص دهند کدام یک از واژگان پر تکرار در حال ترند شدن هستند. این اثر جدید نشان می‌دهد، با اجرایی کردن رمزگذاری حجم زیادی از اطلاعات، شما می‌توانید به نتایج بسیار بهتری دست پیدا کنید. می‌توانید آیتم‌های پر تکرار را ذخیره و آنها را فرا بخوانید.

نظرات کاربران

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مشاهده بیشتر