30 مجموعه داده بزرگ TensorFlow برای یادگیری ماشین
TensorFlow توسط محققان Google Brain ایجاد شده است ، یکی از بزرگترین کتابخانه های منبع باز برای یادگیری ماشین و علم داده است. این یک پلتفرم از انتها به انتهای هم برای مبتدیان کامل و هم دانشمندان باتجربه داده است. کتابخانه TensorFlow شامل ابزارها ، مدل های از قبل آموزش دیده ، راهنماهای یادگیری ماشین و همچنین مجموعه ای از مجموعه داده های باز است. برای کمک به شما در یافتن اطلاعات آموزشی مورد نیاز ، در این مقاله به طور خلاصه برخی از بزرگترین مجموعه های داده TensorFlow برای یادگیری ماشین معرفی می شود. ما لیست زیر را به مجموعه داده های تصویر ، ویدئو ، صدا و متن تقسیم کرده ایم.
مجموعه داده های تصویر TensorFlow

* CelebA: یکی از بزرگترین مجموعه داده های تصاویر چهره در دسترس عموم ، مجموعه اطلاعات چهره های چهره های مشهور (CelebA) شامل بیش از 200000 تصویر از افراد مشهور است. هر تصویر شامل 5 نشانه صورت و 40 حاشیه نویسی ویژگی باینری است.

* Images Downsampled: این مجموعه داده برای تخمین تراکم و کارهای مدل سازی مولد ساخته شده است. این شامل کمی بیش از 1.3 میلیون تصویر از اشیا، ، صحنه ها ، وسایل نقلیه ، افراد و موارد دیگر است. تصاویر در دو رزولوشن 32 32 32 و 64 64 64 در دسترس هستند.

* Lsun – Lsun یک مجموعه داده تصویری در مقیاس بزرگ است که برای کمک به آموزش مدل ها برای درک صحنه ایجاد شده است. این مجموعه داده شامل بیش از 9 میلیون تصویر به دسته های صحنه ، مانند اتاق خواب ، کلاس و اتاق غذاخوری تقسیم شده است.

* Bigearthnet – Bigearthnet مجموعه داده دیگری در مقیاس بزرگ است که شامل تصاویر هوایی از ماهواره Sentinel-2 است. هر تصویر یک سطح زمین 1.2 کیلومتر در 1.2 کیلومتر را پوشش می دهد. مجموعه داده شامل 43 برچسب عدم تعادل برای هر تصویر است.

* اماکن 365 – همانطور که از نامش پیداست ، اماکن 365 شامل بیش از 1.8 میلیون تصویر از مکان ها یا صحنه های مختلف است. برخی از این دسته ها شامل دفتر ، اسکله و کلبه است. Places 365 یکی از بزرگترین مجموعه های داده موجود برای کارهای تشخیص صحنه است.

* Quickdraw Bitmap – مجموعه داده Quickdraw مجموعه ای از تصاویر است که توسط انجمن پخش کننده Quickdraw ترسیم شده است. این شامل 5 میلیون نقاشی است که شامل 345 دسته است. این نسخه از مجموعه داده Quickdraw شامل تصاویر در قالب خاکستری 28 c 28 است.

* SVHN Cropped – از دانشگاه استنفورد ، Street View House Numbers (SVHN) یک مجموعه داده TensorFlow است که برای آموزش الگوریتم های تشخیص رقم ساخته شده است. این شامل 600000 نمونه از داده های تصویر در دنیای واقعی است که به 32 32 32 پیکسل تقسیم شده اند.

* VGGFace2 – یکی از بزرگترین مجموعه داده های تصویر چهره ، VGGFace2 شامل تصاویر بارگیری شده از موتور جستجوی گوگل است. چهره ها از نظر سن ، ژست و قومیت متفاوت هستند. از هر موضوع به طور متوسط ​​362 تصویر وجود دارد.

* COCO – ساخته شده توسط همكاران Google ، FAIR ، Caltech و موارد دیگر ، COCO یكی از بزرگترین مجموعه داده های تصویر دارای برچسب در جهان است. برای شناسایی اشیا، ، تقسیم بندی و شرح وظایف تصویر ساخته شده است. این مجموعه داده شامل 330،000 تصویر است که 200،000 تصویر آنها دارای برچسب هستند. در داخل تصاویر ، 1.5 میلیون مورد شی در 80 گروه وجود دارد.

* Open Images Challenge 2019 – این مجموعه داده با حدود 9 میلیون تصویر ، یکی از بزرگترین مجموعه های داده برچسب دار موجود در اینترنت است. تصاویر حاوی برچسب های سطح تصویر ، جعبه های محدود کننده شی و ماسک تقسیم بندی اشیا و همچنین روابط بصری هستند.

* Open Images V4 – این مجموعه داده تکرار دیگری از مجموعه داده Open Images است که در بالا ذکر شد. V4 شامل 14.6 میلیون جعبه محدود برای 600 کلاس مختلف شی است. جعبه های اتصال به صورت دستی توسط حاشیه نویسان انسانی ترسیم شده اند.

* AFLW2K3D – این مجموعه داده شامل 2000 تصویر صورت است که همه حاوی نشانه های صورت سه بعدی هستند. برای ارزیابی مدل های تشخیص نقطه علامت سه بعدی چهره ایجاد شده است.
مجموعه داده های ویدیویی

* UCF101 – از دانشگاه فلوریدا مرکزی ، UCF101 یک مجموعه داده ویدیویی است که برای آموزش مدل های تشخیص عملکرد ساخته شده است. این مجموعه داده دارای 13،320 فیلم است که بیشتر بخوانید شامل 101 دسته اقدام است.

* فشار ربات BAIR – از تحقیقات هوش مصنوعی برکلی ، فشار ربات BAIR حاوی 44000 فیلم ویدیویی از حرکات ربات است.

* Moving MNIST – این مجموعه داده گونه ای از مجموعه داده های معیار MNIST است. انتقال MNIST شامل 10،000 فیلم است. هر ویدئو 2 رقم دست نویس را نشان می دهد که در یک قاب 64 64 64 در اطراف حرکت می کنند.

* EMNIST – MNIST تمدید شامل ارقامی از مجموعه داده اصلی MNIST است که به فرمت 28 28 28 پیکسل تبدیل شده است.
مجموعه داده های صوتی TensorFlow

* CREMA-D – ایجاد شده برای وظایف گوگل ادوردز تشخیص احساسات ، CREMA-D شامل عبارات احساسی صوتی است. این مجموعه داده شامل 7،442 کلیپ صوتی است که توسط 91 بازیگر با سن ، قومیت و جنسیت متفاوت ابراز شده اند.

* Librispeech – Librispeech یک مجموعه داده صوتی ساده است که شامل 1000 ساعت گفتار انگلیسی است که از کتابهای صوتی پروژه LibriVox گرفته شده است. این برای آموزش هر دو مدل صوتی و مدل های زبان استفاده شده است.

* Libritts – این مجموعه داده شامل حدود 585 ساعت سخنرانی انگلیسی است که با کمک اعضای تیم Google Brain تهیه شده است. در ابتدا Libritts برای تحقیق متن به گفتار (TTS) طراحی شده است ، اما می تواند برای کارهای مختلف تشخیص صدا استفاده شود.

* TED-LIUM – TED-LIUM مجموعه داده ای است که شامل بیش از 110 ساعت گفتگوی انگلیسی TED است. همه گفتگوها رونویسی شده است.

* VoxCeleb – یک مجموعه داده بزرگ صوتی است که برای کارهای شناسایی بلندگو ساخته شده است ، VoxCeleb شامل بیش از 150،000 نمونه صوتی از 1251 بلندگو است.
مجموعه داده متن

* C4 (Common Crawl’s Web Crawl Corpus) – Common Crawl مخزن منبع باز داده های صفحه وب است. این برنامه به بیش از 40 زبان در دسترس است و شامل هفت سال داده است.

* نظرات مدنی – این مجموعه آرشیوی با بیش از 1.8 میلیون نمونه نظر عمومی از 50 سایت خبری انگلیسی زبان است.

* IRC Disentanglement – این مجموعه داده TensorFlow کمی بیش از 77000 نظر از کانال IRC اوبونتو را شامل می شود. فراداده برای هر نمونه شامل شناسه پیام و مهر زمان است.

* Lm1b – این مجموعه داده به عنوان معیار مدل زبان شناخته می شود ، حاوی 1 میلیارد کلمه است. در اصل برای سنجش میزان پیشرفت در مدل سازی زبان آماری ساخته شده است.

* SNLI – مجموعه استنتاج زبان طبیعی استنفورد مجموعه ای از 570،000 جفت جمله نوشته شده توسط انسان است. همه این جفت ها برای دسته بندی متعادل به صورت دستی برچسب گذاری شده اند.

* e-SNLI – این مجموعه داده پسوند SNLI ذکر شده در بالا است ، که حاوی 570،000 جفت جمله مجموعه داده اصلی است که به این ترتیب طبقه بندی می شوند: پیوستگی ، تناقض و خنثی.

* MultiNLI – پس از مجموعه داده SNLI ، MultiNLI شامل 433،000 جفت جمله است که همه حاوی اطلاعات حاوی حاشیه هستند.

* Wiki40b – این مجموعه داده در مقیاس بزرگ شامل متن مقاله های ویکی پدیا به 40 زبان مختلف است. داده ها پاک شده و بخشهای غیرمحتوا و همچنین اشیا structure ساختاریافته حذف شده اند.

* بررسیهای قطبی Yelp – این مجموعه داده شامل 598،000 بررسی Yelp بسیار قطبی است. آنها از داده های موجود در Yelp Dataset Challenge 2015 استخراج شده مطالب مرتبط اند.
در حالی که مجموعه داده های فوق از بزرگترین و پرکاربردترین مجموعه داده های TensorFlow برای یادگیری ماشین هستند ، کتابخانه TensorFlow گسترده و به طور مداوم در حال گسترش است. لطفاً برای کسب اطلاعات بیشتر به وب سایت TensorFlow مراجعه کنید تا در مورد چگونگی کمک این پلتفرم به شما در ساختن مدلهای خود کمک کند.
هنوز نمی توانید داده های آموزشی مورد نیاز خود را پیدا کنید؟ در Lionbridge ، ما از آخرین سیستم عامل AI خود برای ایجاد مجموعه داده های سفارشی در مقیاس استفاده می کنیم. برای شروع ساخت مجموعه های داده با کیفیت بالا با تیم فروش ما تماس بگیرید یا برای یک دوره آزمایشی رایگان ثبت نام کنید.

توسط