社交网络连接修复实验报告
一、背景与目标
在社交网络分析中,由于数据采集不完整,网络中往往存在一部分“断裂”的连接(即本应存在但未被记录的边)。本实验旨在利用一种智能预测方法,自动识别并修复这些缺失的连接,从而还原更完整的网络结构。
二、实验数据
- 网络规模:10 万个节点(模拟社交用户)
- 原始完整连接数:约 100 万条
- 人为删减:随机移除 20% 的连接(约 20 万条),模拟数据缺失
- 观测到的连接数:约 80 万条
三、修复方法
采用一种基于共同朋友圈的预测策略:两个用户共同认识的人越多,则他们之间本身存在连接的可能性越大。系统会根据这一规律,自动为可能性较高的用户对添加连接。
四、运行结果
程序基于libtorch,用C++实现,python实现太慢了,也承载不了10万节点
方案一:高置信度修复(仅当共同好友 ≥5 时修复)
- 新增连接数:16,584 条
- 成功修复的缺失连接比例:约 8.3%
- 修复后网络总连接数:817,285 条
方案二:中置信度修复(降低修复门槛)
- 新增连接数:12,802,762 条
- 效果:网络连接数膨胀至 1,360 万条,远超原始完整网络
- 结论:门槛过低会导致大量虚假连接被错误添加,破坏网络真实性
五、核心发现
- **过高的修复门槛(共同好友 ≥5)**虽然能确保添加的连接质量极高,但只能找回少数缺失连接(约 8%)。
- 过低的修复门槛会“过度修复”,将大量本不相关的用户连接起来,使网络变得过于稠密而失真。
- 合适的修复策略需要在准确率与召回率之间取得平衡。
六、后续建议
- 进一步分析缺失连接的特征,设计更精准的预测模型(例如结合用户属性、互动频率等)。
- 采用仅对已知缺失的连接进行预测的策略,避免无限制地添加新边。
- 根据实际应用场景(如好友推荐、链路预测)灵活调整修复强度。