Das Encoding/CSV-Paket in Go war Gegenstand vieler Debatten bezüglich der Handhabung von Strings in Anführungszeichen in CSV-Dateien. Ziel dieses Artikels ist es, Licht in das Problem zu bringen, indem er ein faszinierendes Phänomen untersucht, das ein Benutzer beobachtete, als er beim Schreiben von zitierten Zeichenfolgen in eine CSV-Datei auf zusätzliche Anführungszeichen stieß.
Der Benutzer hat angegeben Das folgende Code-Snippet zur Veranschaulichung des Problems:
<code class="go">package main import ( "encoding/csv" "fmt" "os" ) func main() { // Create a file to write CSV data f, err := os.Create("./test.csv") if err != nil { log.Fatal("Error: %s", err) } defer f.Close() // Initialize a CSV writer w := csv.NewWriter(f) // Unquoted string var record []string record = append(record, "Unquoted string") s := "Cr@zy text with , and \ and \" etc" record = append(record, s) fmt.Println(record) w.Write(record) // Quoted string record = make([]string, 0) record = append(record, "Quoted string") s = fmt.Sprintf("%q", s) record = append(record, s) fmt.Println(record) w.Write(record) // Flush the writer to save the changes w.Flush() }</code>
Beim Ausführen dieses Codes wäre die erwartete Ausgabe für die in Anführungszeichen gesetzte Zeichenfolge wie folgt:
[Quoted string "Cr@zy text with , and \ and \" etc"]
Die Ausgabe wurde jedoch tatsächlich erhalten war:
[Quoted string,"""Cr@zy text with , and \ and \"" etc"""]
Das Vorhandensein zusätzlicher Anführungszeichen rund um die zitierte Zeichenfolge war rätselhaft und erforderte weitere Untersuchungen.
Die Ursache des Problems liegt in der CSV-Dateiformatstandard (Comma-Separated Values) selbst. Gemäß dem Standard müssen doppelte Anführungszeichen ("), die innerhalb eines Felds verwendet werden, durch zwei doppelte Anführungszeichen ("") dargestellt werden. Dies ist eine Möglichkeit, das Zeichen für Analysezwecke zu maskieren.
A (double) quote character in a field must be represented by two (double) quote characters.
Anwenden dieser Regel auf Im Code hat der Benutzer tatsächlich die Anführungszeichen innerhalb der zitierten Zeichenfolge mit fmt.Sprintf("%q") korrekt maskiert. Das Paket „encoding/csv“ fügt jedoch zusätzliche Escapezeichen durch surrou hinzu.
[Unquoted string Cr@zy text with , and `\` and " etc] [Quoted string `""""Cr@zy text with , and `\` and \"" etc""""`]
Dies Zusätzliche Escapezeichen sind erforderlich, um den CSV-Standard einzuhalten, der erfordert, dass Felder optional in doppelte Anführungszeichen eingeschlossen werden müssen und doppelte Anführungszeichen innerhalb von Feldern als doppelte doppelte Anführungszeichen dargestellt werden müssen.
Während die zusätzlichen Anführungszeichen gemäß den CSV-Kodierungsspezifikationen hinzugefügt werden, können sie vermieden werden, indem Sie sich für ein alternatives Kodierungsformat entscheiden. Wenn Sie sich strikt an den CSV-Standard halten möchten, können Sie die Zeichenfolge auch manuell bearbeiten, indem Sie jedes einzelne doppelte Anführungszeichen durch ersetzen ein doppeltes doppeltes Anführungszeichen, etwa so:
<code class="go">s = strings.ReplaceAll(s, `"`, `""`)</code>
Das eigenartige Verhalten, das beim Schreiben von Zeichenfolgen in Anführungszeichen in CSV-Dateien im Codierungs-/CSV-Paket von Go beobachtet wurde, kann dem CSV-Standard selbst zugeschrieben werden. Für die Analyse müssen doppelte Anführungszeichen mit Escapezeichen versehen werden. Wenn Sie diesen zugrunde liegenden Mechanismus verstehen, können Sie entweder alternative Codierungsformate wählen oder das String-Escape manuell durchführen, um die gewünschten Ergebnisse zu erzielen.
Das obige ist der detaillierte Inhalt vonWarum fügt das Paket „encoding/csv' von Go zusätzliche Anführungszeichen zu Zeichenfolgen in Anführungszeichen in CSV-Dateien hinzu?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!