【[44星]OpenCoder-llm/opc_data_filtering:为大规模代码预训练语料库量身打造的启发式过滤框架。亮点:1. 超过100条过滤规则,精准清洗代码数据;2. 灵活的规则配置,支持多种编程语言;3. 易于扩展,可快速适配不同数据集】
'Heuristic filtering framework for RefineCode'
GitHub: github.com/OpenCoder-llm/opc_data_filtering
#代码过滤# #数据清洗# #开源框架# #AI创造营#
'Heuristic filtering framework for RefineCode'
GitHub: github.com/OpenCoder-llm/opc_data_filtering
#代码过滤# #数据清洗# #开源框架# #AI创造营#