Некоммерческая исследовательская группа по искусственному интеллекту #EleutherAI извлекла субтитры из YouTube, чтобы создать набор данных, что является нарушением условий обслуживания YouTube, сообщило издание ProofNews 16 июля .
Набор данных, называемый Pile, предположительно включает субтитры 173 536 видео YouTube с более чем 48 000 каналов. Около 12 000 удаленных видео являются частью набора данных.
Несколько ведущих технологических и ИИ-фирм, включая Anthropic, с тех пор использовали Pile для обучения. Представитель #Anthropic Дженнифер Мартинес заявила, что набор данных включает «очень небольшое подмножество субтитров YouTube», но отказалась комментировать возможные нарушения условий обслуживания #YouTube.
Компания Salesforce, занимающаяся бизнес-ПО, также использовала этот набор данных. Вице-президент Salesforce по исследованиям искусственного интеллекта Кайминг Сюн сказал, что набор данных был «общедоступным» и что Salesforce использовала его в академических и исследовательских целях. ProofNews сообщил, что Salesforce в конечном итоге опубликовала тот же набор данных.
(
Читать дальше )