回答此问题可获得 20 贡献值,回答如果被采纳可获得 50 分。
<p>在我的基础数据科学学期的CAS学期论文中,我正在解析一个新闻网站上的所有文章及其元数据(作者、标题、副标题、摘要、标签、类别、子类别、创建日期、更新日期等)-灵感来自这个家伙<a href="https://www.youtube.com/watch?v=-YpwsdRKt8Q" rel="nofollow noreferrer">https://www.youtube.com/watch?v=-YpwsdRKt8Q</a></p>
<p>一切都很好,我的树莓皮收集这些数据所有15分钟等等。你知道吗</p>
<p>我只有一个问题。我想用这些标签创建一个关联网络。此标记列看起来像</p>
<blockquote>
<p><code>0 panorama,schweiz,verkehr,news
1 sport,schweiz,eishockey,news
2 stans,panorama,verkehr,strassenverkehr,news
3 eishockey,sport,davos,news
4 wirtschaft,schweiz,konsum,kaffeetee,news
5 jeanclaudegerber,news,srilanka,tiere,wissen
6 schule,bellinzona,panorama,news
7 luzern,jrgenklopp,fussball,news
8 panorama,klima,gretathunberg,lissabon,news
9 australien,vermisstmeldung,gesellschaft,news
10 gesellschaft,amerika,news,ausstellung</code></p>
</blockquote>
<p>现在我要计算标签之间的相关性。
e、 g.在第一行中,“全景”有一行到“schweiz”,“verkehr”,“news”
“schweiz”有一行到“panorama”,“verkehr”,“news”
等等。有时有3个标签,有时多达7、8个。你知道吗</p>
<p>我想让一个脚本在所有行中运行,并计算出这种相关性,并对其进行总结。你知道吗</p>
<p>第一个问题,有人能告诉我怎么做吗?有什么可以帮忙的吗?哪怕是一个小小的暗示,我也会非常感激。<br/>
最后一个问题,有没有人能给我一个提示,我怎么能想象这个。我想要一个能看到整个地图的网络图。最常见的标记越大,最常见连接的线宽也越粗。你知道吗</p>
<p>我的主要问题是,我甚至不知道我要看什么。你可能注意到英语不是我的母语,在德语中,我还没有找到真正对我有帮助的东西;-)</p>
<p>非常感谢,来自瑞士的欢呼
马可</p>
<p>编辑,PS:为了更恰当地指定。列表中的所有标记都是标记。如果我有:</p>
<blockquote>
<p><code>panorama,schweiz,verkehr,news</code></p>
</blockquote>
<p>这是4个标签,每个标签都与其他三个标签相关。你知道吗</p>