array(['ftp_data', 'other', 'private', 'http', 'remote_job', 'name',
'netbios_ns', 'eco_i', 'mtp', 'telnet', 'finger', 'domain_u',
'supdup', 'uucp_path', 'Z39_50', 'smtp', 'csnet_ns', 'uucp',
'netbios_dgm', 'urp_i', 'auth', 'domain', 'ftp', 'bgp', 'ldap',
'ecr_i', 'gopher', 'vmnet', 'systat', 'http_443', 'efs', 'whois',
'imap4', 'iso_tsap', 'echo', 'klogin', 'link', 'sunrpc', 'login',
'kshell', 'sql_net', 'time', 'hostnames', 'exec', 'ntp_u',
'discard', 'nntp', 'courier', 'ctf', 'ssh', 'daytime', 'shell',
'netstat', 'pop_3', 'nnsp', 'IRC', 'pop_2', 'printer', 'tim_i',
'pm_dump', 'red_i', 'netbios_ssn', 'rje', 'X11', 'urh_i',
'http_8001', 'aol', 'http_2784', 'tftp_u', 'harvest'], dtype=object)
这是我的数据集中的一个功能集。数组中包含的所有值都是唯一的。唯一值的长度为70。每个值都被视为一个类别。我想将此功能集转换为一个热编码。 我想用一种详细的方式说,如果一行包含“ftp_数据”,那么它应该是一个热编码为1000000。。。。。对于所有行,依此类推。 我知道一种为每个单词分配数值的方法,用数值替换数据集中的单词,然后使用one_hot_编码方法。我希望是否有其他方法可以直接将我的数据集从单词转换为一种热编码 有谁能帮助我们找到一种方法在熊猫身上做到这一点
我想你在找pandas.get_dummies
浮动方式:
请注意,astype(int)得到一个错误
相关问题 更多 >
编程相关推荐