UTF8编码日语语料库的r处理

<U+30AB><U+30F4><U+30A1> <U+4E00><U+676F> <U+767D> <U+8D64> <U+4E00><U+676F> <U+89D2>_<U+30CF><U+30A4><U+30DC><U+30FC><U+30EB> <U+5C71><U+5D0E> <U+30CF><U+30A4><U+30DC><U+30FC><U+30EB> <U+591A><U+304B><U+3063> <U+305F> <U+304B>

865781289361604609;コークハイ山崎年酔っ払いなう 856448528331161600;リカーショップ寄ったらサントリー山崎響が入荷_してた 815926577556897792;おとなしく山崎んどきます w まあ竹鶴結局手にいれまし_たしよします w 769384649143361536;再来週山崎_蒸留所行くアドしか_ない 860119818296414208;非売品山崎仕込_み水水割り最高です_ね 759768684457975809;ゴースト観た面白かっ_たラスト個人_的驚いた最高だろ_うこういう時期って絶対あるよねラスト切り口俺好き山崎ハイボールうまし 807576715203444736;山崎ロックうまいわぁ 833936664938500098;あるお店飲み_放題ウイスキー以前山崎白州ブラックニッカ角変わってる大人事情ってやつか 744757755177664512;父日サントリー山崎プレゼントしよ_うとして円しかなかっ_た竹鶴あげた 744850084580384768;今度山崎か響買おう 742576211759628288;i サントリー山崎_蒸溜所島本_町大阪府 862666125909278720;山崎年だねー杯ご_馳走する_よ 865932271169159172;山崎年神々しい 788394825494175745;山崎年よきて 833282834412376064;山崎_蒸留所見学ツアー千円部大阪ダメダメ団向けテイスティング 823471399289253888;おととい山崎年ごちそうなったん_だけどめっっっちゃ美味_しくて家帰っ_て調べたら定価でもくらいする知ってヒェッてなったいつも穏やかな愛するあまり相手薬漬け快楽漬けて全裸首輪つけて自室監禁て泣きながら犯す攻め見た時よう 775381740160299008;次買うウイスキー山崎しよ_うとり_あえず山崎美味いだ 862137645895262209;山崎シェリーカスク一回飲ん_でみたいけど値段ぶっ飛んてヤヴァイ年万くらいとかな 741984119035334660;山崎ハイボールなう 768400284754190337;久々_に自覚するくらい酔っぱらっちゃったぬ山崎ボトル一本飲ませて頂いたよありたいね 839372940374237184;ウイスキーある_けど家やつ美味_しくないー山崎響き好き 744138456025042944;山崎ロック飲み_ながら妹ちょ見る 779968612224217089;無駄いいホテル笑知ってると_思うけど山崎響飲んだ翌日体臭おじ_さんなるね気をつけて 822126367584043008;山崎でもいいウイスキー蒸留_所行きたい 753358847352246272;山崎年のうえ年

> rm(list=ls(all=TRUE)) > library(readr) > parselmouth.windows <- + read_delim( + parselmouth.csv, + ";", + escape_double = FALSE, + col_names = FALSE, + trim_ws = TRUE + ) Parsed with column specification: cols( X1 = col_double(), X2 = col_character() ) > names(parselmouth.windows) <- c('document', 'content') > parselmouth.windows$document <- as.character(parselmouth.windows$document) > > print.listof(head(parselmouth.windows)) document : [1] "865781289361604608" "856448528331161600" "815926577556897792" [4] "769384649143361536" "860119818296414208" "759768684457975808" content : [1] "<U+30B3><U+30FC><U+30AF><U+30CF><U+30A4> <U+5C71><U+5D0E> <U+5E74> <U+9154> <U+3063><U+6255><U+3044> <U+306A><U+3046>" [2] "<U+30EA><U+30AB><U+30FC><U+30B7><U+30E7><U+30C3><U+30D7> <U+5BC4><U+3063> < U+305F><U+3089> <U+30B5><U+30F3><U+30C8><U+30EA><U+30FC> <U+5C71><U+5D0E> <U+97F F><U+304C> <U+5165><U+8377>_<U+3057> <U+3066> <U+305F>" [3] "<U+304A><U+3068> <U+306A><U+3057><U+304F> <U+5C71><U+5D0E> <U+3093><U+3069> <U+304D> <U+307E><U+3059> w <U+307E><U+3042> <U+7AF9><U+9DB4> <U+7D50><U+5C40> < U+624B> <U+306B><U+3044><U+308C> <U+307E><U+3057>_<U+305F> <U+3057><U+3088><U+30 57> <U+307E><U+3059> w" [4] "<U+518D> <U+6765><U+9031> <U+5C71><U+5D0E>_<U+84B8><U+7559> <U+6240> <U+884 C><U+304F> <U+30A2><U+30C9> <U+3057><U+304B>_<U+306A><U+3044>" [5] "<U+975E><U+58F2> <U+54C1> <U+5C71><U+5D0E> <U+4ED5><U+8FBC>_<U+307F> <U+6C3 4> <U+6C34><U+5272><U+308A> <U+6700><U+9AD8> <U+3067><U+3059>_<U+306D>" [6] "<U+30B4><U+30FC><U+30B9><U+30C8> <U+89B3> <U+305F> <U+9762><U+767D> <U+304B ><U+3063>_<U+305F> <U+30E9><U+30B9><U+30C8> <U+500B><U+4EBA>_<U+7684> <U+9A5A><U +3044> <U+305F> <U+6700><U+9AD8> <U+3060><U+308D>_<U+3046> <U+3053><U+3046><U+30 44><U+3046> <U+6642><U+671F><U+3063> <U+3066> <U+7D76><U+5BFE> <U+3042><U+308B> <U+3088><U+306D> <U+30E9><U+30B9><U+30C8> <U+5207><U+308A> <U+53E3> <U+4FFA> <U+ 597D><U+304D> <U+5C71><U+5D0E> <U+30CF><U+30A4><U+30DC><U+30FC><U+30EB> <U+3046> <U+307E><U+3057>"

1条回答

网友

1楼 · 发布于 2024-04-27 13:31:06

对，我怀疑你在用窗户。在Linux（ubuntu16.04.2，RStudio 0.99.879，r3.3.2）中，阅读和打印非常有效。你知道吗

parselmouth.ubuntu <-
  read.csv('parselmouth.csv', header = FALSE, sep = ";")

> head(parselmouth.ubuntu)
            V1
1 8.657813e+17
2 8.564485e+17
3 8.159266e+17
4 7.693846e+17
5 8.601198e+17
6 7.597687e+17
                                                                                                                                               V2
1                                                                                                                コークハイ 山崎 年 酔っ払い なう
2                                                                                     リカーショップ 寄っ たら サントリー 山崎 響が 入荷_し て た
3                                                                   おと なしく 山崎 んどき ます w まあ 竹鶴 結局 手 にいれ まし_た しよし ます w
4                                                                                                        再 来週 山崎_蒸留 所 行く アド しか_ない
5                                                                                                     非売 品 山崎 仕込_み 水 水割り 最高 です_ね
6 ゴースト 観 た 面白 かっ_た ラスト 個人_的 驚い た 最高 だろ_う こういう 時期っ て 絶対 ある よね ラスト 切り 口 俺 好き 山崎 ハイボール うまし
>

我想你会在内部发现，Rfor Windows确实“知道”数据的正确编码。只是没有以我们期望或希望的方式印刷出来。你知道吗

我建议你读http://people.fas.harvard.edu/~izahn/posts/reading-data-with-non-native-encoding-in-r/

尝试将示例数据保存为parselmouth.csv，安装readr库，然后运行

library(readr)
parselmouth.windows <-
  read_delim(
    "parselmouth.csv",
    ";",
    escape_double = FALSE,
    col_names = FALSE,
    trim_ws = TRUE
  )

names(parselmouth.windows) <- c('document', 'content')
parselmouth.windows$document <- as.character(parselmouth.windows$document)

print.listof(head(parselmouth.windows))

你会看到：

document :
[1] "865781289361604608" "856448528331161600" "815926577556897792"
[4] "769384649143361536" "860119818296414208" "759768684457975808"

content :
[1] "コークハイ 山崎 年 酔っ払い なう"                                                                                                               
[2] "リカーショップ 寄っ たら サントリー 山崎 響が 入荷_し て た"                                                                                    
[3] "おと なしく 山崎 んどき ます w まあ 竹鶴 結局 手 にいれ まし_た しよし ます w"                                                                  
[4] "再 来週 山崎_蒸留 所 行く アド しか_ない"                                                                                                       
[5] "非売 品 山崎 仕込_み 水 水割り 最高 です_ね"                                                                                                    
[6] "ゴースト 観 た 面白 かっ_た ラスト 個人_的 驚い た 最高 だろ_う こういう 時期っ て 絶対 ある よね ラスト 切り 口 俺 好き 山崎 ハイボール うまし"

如果仍然没有joy，那么确定或设置当前区域设置可能会有所帮助。在我的Windows示例中，我使用默认的Windows代码页：

Sys.getlocale(category = "LC_ALL")
[1] "LC_COLLATE=English_United States.1252;LC_CTYPE=English_United States.1252;LC_MONETARY=English_United States.1252;LC_NUMERIC=C;LC_TIME=English_United States.1252"

但我可以改变它

Sys.setlocale(category = "LC_ALL", locale = "English_United States.932")
[1] "LC_COLLATE=English_United States.932;LC_CTYPE=English_United States.932;LC_MONETARY=English_United States.932;LC_NUMERIC=C;LC_TIME=English_United States.932"

您还可以使用十六进制编辑器验证您的输入是否与我的相同：

相关问题更多 >

编程相关推荐

热门问题

热门文章