src/com/dom_distiller/client/ContentExtractor.java - Issue 286453002: Add extract_text_only option

Keyboard Shortcuts

	File
u :	up to issue
j / k :	jump to file after / before current file
J / K :	jump to next file with a comment after / before current file
	Side-by-side diff
i :	toggle intra-line diffs
e :	expand all comments
c :	collapse all comments
s :	toggle showing all comments
n / p :	next / previous diff chunk or comment
N / P :	next / previous comment
<Up> / <Down> :	next / previous line

	Issue
u :	up to list of issues
j / k :	jump to patch after / before current patch
o / <Enter> :	open current patch in side-by-side view
i :	open current patch in unified diff view

	Issue List
j / k :	jump to issue after / before current issue
o / <Enter> :	open current issue

Unified Diff: src/com/dom_distiller/client/ContentExtractor.java

Issue 286453002: Add extract_text_only option (Closed) Base URL: https://code.google.com/p/dom-distiller/@master

Patch Set: Rebase Created 6 years, 7 months ago

Use n/p to move between diff chunks; N/P to move between comments. Draft comments are only viewable by you.

Jump to:

View side-by-side diff with in-line comments

Download patch

Index: src/com/dom_distiller/client/ContentExtractor.java

diff --git a/src/com/dom_distiller/client/ContentExtractor.java b/src/com/dom_distiller/client/ContentExtractor.java

index 2491fb616b1010050894261f6eaf5bbc39fb53bc..50cfef361ea98e891243907e6e5f7b2782d4eead 100644

--- a/src/com/dom_distiller/client/ContentExtractor.java

+++ b/src/com/dom_distiller/client/ContentExtractor.java

@@ -35,6 +35,10 @@ public class ContentExtractor implements Exportable {

static Logger logger = Logger.getLogger("DomDistiller");

public static String extractContent() {

+ return extractContent(false);

+ }

+ public static String extractContent(boolean text_only) {

BoilerpipeHTMLContentHandler htmlParser = new BoilerpipeHTMLContentHandler();

List<Node> textNodes = null;

@@ -56,19 +60,11 @@ public class ContentExtractor implements Exportable {

return "";

}

- List<Integer> contentTextIndexes = new ArrayList<Integer>();

- for (TextBlock tb : document.getTextBlocks()) {

- if (!tb.hasLabel(DefaultLabels.TITLE)) {

- contentTextIndexes.addAll(tb.getContainedTextElements());

- }

+ if (text_only) {

+ return document.getText(true, false);

}

- Collections.sort(contentTextIndexes);

- // Boilerpipe's text node indexes start at 1.

- List<Node> contentNodes = new ArrayList<Node>(contentTextIndexes.size());

- for (Integer i : contentTextIndexes) {

- contentNodes.add(textNodes.get(i - 1));

- }

+ List<Node> contentNodes = getContentNodesForTextDocument(document, textNodes);

List<Node> contentAndImages = RelevantImageFinder.findAndAddImages(

contentNodes, Document.get().getDocumentElement());

@@ -100,6 +96,24 @@ public class ContentExtractor implements Exportable {

return domToSaxVisitor.getTextNodes();

}

+ private static List<Node> getContentNodesForTextDocument(

+ TextDocument document, List<Node> textNodes) {

+ List<Integer> contentTextIndexes = new ArrayList<Integer>();

+ for (TextBlock tb : document.getTextBlocks()) {

+ if (!tb.hasLabel(DefaultLabels.TITLE)) {

+ contentTextIndexes.addAll(tb.getContainedTextElements());

+ }

+ Collections.sort(contentTextIndexes);

+ // Boilerpipe's text node indexes start at 1.

+ List<Node> contentNodes = new ArrayList<Node>(contentTextIndexes.size());

+ for (Integer i : contentTextIndexes) {

+ contentNodes.add(textNodes.get(i - 1));

+ }

+ return contentNodes;

+ }

private static void makeAllLinksAbsolute(Node rootNode) {

Element root = Element.as(rootNode);

« no previous file with comments | « proto/dom_distiller.proto ('k') | src/com/dom_distiller/client/DomDistiller.java » ('j') | no next file with comments »