中国教育报客户端讯(通讯员 张志浩 方科亚)近日,宁波职业技术学院人工智能学院的学生团队在“暗链数据集”构建方面取得重要进展。他们通过高效收集、清洗和标注互联网暗链数据,成功构建了面向大模型安全训练的专项数据集,为提升人工智能模型的抗干扰能力与安全防护水平,提供了关键技术支撑。
随着人工智能技术迅猛发展,大模型在文本生成、语义理解等众多领域得到广泛应用。然而,模型训练数据的安全性与鲁棒性问题也日益凸显。暗链,作为隐藏于网页代码、图片元数据或非结构化文本中的不可见链接,已然成为网络攻击的潜在载体,极有可能对大模型训练造成数据污染风险。
令人担忧的是,当前公开数据集中,针对暗链的专项研究资源极度匮乏。学院“网络与信息安全”技能工作坊张逸帆、陈昭奕等学生敏锐洞察这一技术缺口,在工作坊张志浩老师的指导下,携手网络安全相关企业展开联合攻关。
该项目团队运用创新技术手段,采用动态爬虫、黑帽SEO、关键词可疑跳转或iframe关键词等方法,主动挖掘暗链的分布规律。同时,结合对抗生成技术,进一步扩充数据的多样性。目前,这一数据集已广泛覆盖民营企业、教育等多种场景,收录高质量暗链样本超2万条。尤为关键的是,每条数据都附带风险等级及上下文语义标签,为后续的模型训练提供了丰富且精准的信息。团队成员突破传统思维定式,在数据处理上独辟蹊径。传统数据清洗通常会过滤暗链,而他们逆向思考,将暗链转化为训练模型的“疫苗”。通过让大模型在训练过程中接触可控的暗链样本,显著提升其对隐蔽风险的识别与防御能力。
团队指导老师张志浩指出,这种“把问题变教材”的创新实践,正是职业教育的独特魅力所在。学生们从真实网络环境中发现问题,再运用所学专业技术解决问题,真正做到了“学以致用”。
此次“暗链数据集”的成功构建,不仅展现了宁波职院人工智能学院学生团队的创新能力与专业素养,更为人工智能模型的安全训练开辟了新路径,有望推动产学研深度融合,助力行业在大模型安全领域取得新的突破。
新闻链接:
https://share.app3.jyb.cn/news_d/1c95b8ff9787ce40454590217d05fa8d?from=UC92azc3djZYbnBlb2NaNkRvdVR4UVoxYUJ0ekZIb2VnRkZDb0I2KzUwd2t1NE1vVWNzS2NQR0x4c0FWVXE0Vw==
来源 中国教育报客户端:2025年4月2日