1. 共享模式发现
训练时,首先针对每个社交媒体网络,根据用户社会多媒体行为建立每个用户的行为特征表示。然后利用大量的无人口统计属性标注的用户行为数据,通过多源自编码器来无监督的学习用户稳定的特征表示。在得到了用户稳定的特征表示后,将已知人口统计属性作为监督,利用常用的支持向量机等分类器进行用户人口统计属性推断模型的训练。
预测时,给定在不同社交媒体网络上的网络行为,先提取用户行为特征,然后根据多源自编码器获得用户的稳定特征表示后,利用训练得到的模型推断出用户的人口统计属性。
当然我们这里没有三个网络,我们可以将微博转发和微博原创当做两个网络。
两个社交媒体网络上的稳定特征:
两个社交媒体网络上的行为特征\(f^t,f^t\)通过互相重构的方式,将同一用户的两个社交媒体网络上的行为特征,映射到用户的人口属性空间,在最小化重构误差过程中,获得的隐特征\(h^{tg}\)和\(h^{gt}\)即为用户人口属性空间的特征表示。
\(h^{gt}=encoder^t(f^t):=\zeta(W_e^tf^t+b_e^t)\):将\(f^t\)编码
\(\widetilde f^{gt}=decoder^g(h^{gt}):=W^g_dh^{gt}+b_d^g\):
\(h^{tg}=encoder^g(f^g):=\zeta(W_e^gf^g+b_e^g)\)
\(\widetilde f^{tg} = decoder^t(h^{tg}):=W_d^{t}h^{tg}+b_d^t\)
\(\Phi_t=\sum_{u\in U}||f^t-\widetilde f^{tg}||^2_2\)
\(\Phi_g=\sum_{u\in U}||f^g-\widetilde f^{gt}||^2_2\)
2. 基于多源信用数据信用评估
基本的思路就是:首先基于多源数据关联和共享模式发现方法获得同一个自然人的由多源行为数据到稳定用户属性之间的映射,然后基于用户属性预测信用等级情况。
在集成学习框架的第一层,首先分别从微博和网易云音乐两个中文社交媒体网络上的动态信息中提取用户的行为特征。然后根据层次自编码器,寻找行为特征之间的共享模式。
最后,分别使用SVM,决策树和逻辑回归,根据一致和稳定的用户特征表示得到用户属于各个信用等级的概率大小,将其作为第一层提取出的高层次特征和第二层的输入特征。
在集成学习框架的第二层,将第一层得到的高层次特征和用户在微博上除了动态信息外的12种信息串联起来,使用GDBT作为分类器,对用户信用进行评估。第二层输入特征只有17维,既有连续值,又有离散值。使用的是GDBT算法进行分类。