Докато други техногиганти се надпреварват как да се сдобият с данни за обучение на AI, Meta на Марк Зукърбърг изглежда има едно голямо предимство пред конкурентите си: използването на снимки от Instagram и Facebook.

Главният продуктов директор на Meta Крис Кокс призна пред Bloomberg миналата седмиа, че компанията използва публично достъпни снимки и текстове от платформите си за обучение на своя модел за генериране на изображения от текст, наречен Emu.

"Ние не обучаваме на лични неща, не обучаваме на неща, които хората споделят с приятелите си, ние обучаваме на неща, които са публични", каза той.

Моделът на Meta за генериране на изображения от текст може да произвежда "наистина невероятни качествени изображения", защото в Instagram има много снимки на "изкуство, мода, култура и също така просто изображения на хора" добави Кокс.

AI моделите трябва да бъдат захранвани и обучавани с данни, за да бъдат ефективни. Това е спорен казус, тъй като почти няма начин да се предотврати използването на защитено с авторски права съдържание от интернет за създаване на LLM. Американската служба за авторско право се опитва да се справи с този проблем от началото на миналата година и обмисля актуализиране на правилата и законите, за да го адресира.

Един от начините, по които компаниите се опитват да получат данни, е чрез сътрудничество с други фирми. OpenAI, например, е сключила партньорства с няколко медийни издания за лицензиране на тяхното съдържание и разработване на моделите си.

Миналия месец The New York Times съобщи, че Meta дори е обмисляла да придобие издателя Simon & Schuster в опит да получи повече данни за обучение на своите модели.

Освен сурови набори от данни, компаниите използват и "обратни връзки" - данни, които се събират от минали взаимодействия и резултати, които се анализират за подобряване на бъдещото представяне - за обучение на своите модели. Това включва алгоритми, които информират AI моделите, когато има грешка, за да могат да се учат от нея.

Главният изпълнителен директор на Meta, Марк Зукърбърг, миналия месец каза пред The Verge, че обратните връзки ще бъдат "по-ценни" от всякакви "начални корпуси" от данни.