Tokenisieren von Zeichenfolgen mit Leerzeichen, Ausschließen von Teilzeichenfolgen in Anführungszeichen in Java
Das Trennen einer Zeichenfolge anhand von Leerzeichen kann unkompliziert sein, aber was wäre, wenn bestimmte Teile davon Die Zeichenfolge wird in Anführungszeichen gesetzt und sollte als einzelnes Token behandelt werden? In Java können Sie diese differenzierte Aufteilung mithilfe regulärer Ausdrücke erreichen.
Um dieses Szenario zu bewältigen, kann der folgende Ansatz verwendet werden:
String str = "Location \"Welcome to india\" Bangalore Channai \"IT city\" Mysore"; List<String> list = new ArrayList<>(); Matcher m = Pattern.compile("([^\"]\S*|\".+?\")\s*").matcher(str); while (m.find()) list.add(m.group(1));
Der hier verwendete reguläre Ausdruck teilt die Zeichenfolge effektiv in Token basierend auf Leerzeichen, identifiziert aber auch Teilzeichenfolgen in Anführungszeichen. Indem wir diese in Anführungszeichen gesetzten Teilzeichenfolgen als einzelne Token erfassen, können wir sicherstellen, dass Phrasen wie „Willkommen in Indien“ intakt bleiben.
Der reguläre Ausdruck kann wie folgt verstanden werden:
Dadurch können wir komplexe Zeichenfolgen mit Phrasen in Anführungszeichen effektiv verarbeiten. Die resultierende Liste enthält Token, die einzelne Wörter oder zitierte Phrasen darstellen, wie im bereitgestellten Beispiel erforderlich.
Das obige ist der detaillierte Inhalt vonWie tokenisiert man Zeichenfolgen mit Leerzeichen und schließt Teilzeichenfolgen in Anführungszeichen in Java aus?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!