DJ线下赛_fx

2024年9月23日修改
本文讨论了DJ线下赛相关的分享记录,涉及去重算子、组件、数据指标、实验操作、文件记录、问题分析等内容。关键要点包括:
1.
组件与数据指标:去重算子相关组件有tracer、Analyzer、Sandbox等;数据指标包含Topic distribution、K-sigma等多种,不同指标有不同数值。
2.
实验操作:采用大宝向前冲策略处理中文text,以0.6过滤出现101K数据保存;加入0.9过滤得到50K左右数据并复制为4倍大小,取前30K做llava的caption生成。
3.
文件记录:记录了多个数据文件,如0903_mgm_pretrain_stage_1_tr_0.6_new_0.9_30K_image_captioning_mapper_llava_all_new.jsonl等。
4.
分析结果:大宝队分析给出image_text_matching_score和phrase_grounding_recall的count、mean、std等数据。
5.
论文参考:简单过滤字幕过长或CLIP分数过低样本,提出三层过滤策略,Sieve建议生成合成字幕评估图像-文本对对齐情况。
分享记录
速度搞了额外的评测
去重算子
组件
tracer
Analyzer
Sandbox !!!
Topic distribution 数据topic
K-sigma
字符太长
1低3高
NSFW 3
IMAGE-text Similarity 3
Languarge score 1
Phrase grounding recall 3
Text action number 1
Image with 1
special, charator ratio 3
Flagged word ratio 1
Image height 1
Word reption ratio 1
组合