4
0
全新预训练数据筛选方案,让数据效率提升10倍!配置仅需fastText评分器|港科大vivo出品
PreSelect 团队投稿 量子位 | 公众号 QbitAI vivo 自研大模型用的数据筛选方法,公开了。 香港科技大学和 vivo AI Lab 联名提出PreSelect,目前已被 ICML 2025 接收。 这是一种轻量级且高效的数据选择方法:只需要训练和部署一个基于 fastText 的